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PREFÁCIO 


Os termos Inteligência Computacional, Inteligência Artificial, Aprendizagem de 
Máquinas, Reconhecimento de Padrões, Visão Computacional, além de outros, são 
geralmente utilizados como sinônimos. Embora existam diferenças em suas definições ou 
ênfases, estas não são o foco deste livro ou deste prefácio. O conjunto de trabalhos que 
compõem este livro utiliza alguns dos termos citados, sendo que no presente texto optamos 
pelo termo Inteligência Computacional, o qual também faz parte do título da coletânea. 


Os termos anteriores muitas vezes nos remetem aos filmes de ficção científica. 
Em seus enredos, máquinas substituem seres humanos ou há batalhas em que ambos 
lutam entre si na tentativa de garantir uma dominância de uma parte em relação à outra 
ou simplesmente a própria sobrevivência. À medida que os estudos avançam e novas 
perspectivas surgem, algumas especulações como as que acabamos de citar são 
descartadas. 


Neste livro apresentamos alguns estudos desenvolvidos em colaboração com 
docentes, técnicos e discentes da Universidade Tecnológica Federal do Paraná (UTFPR), 
Câmpus Toledo. Tais estudos estão relacionados a atividades de pesquisa decorrentes 
do desenvolvimento de trabalhos de conclusão de curso e iniciação científica. Eles 
compreendem três contextos de aplicação da Inteligência Computacional como área 
interdisciplinar que auxilia ou substitui o especialista humano na execução de suas tarefas. 


O primeiro eixo é formado por artigos que trabalham com a identificação da 
composição de concretos, enquanto o segundo contempla artigos com foco na morfologia 
da corrosão em armaduras. Ambos os eixos estão relacionados a problemas inerentes à 
Engenharia Civil, mas cada um dos estudos utiliza abordagens e ferramentais distintos. 
Finalizando o livro, o terceiro eixo tem foco na area de saúde, mais especificamente no 
diagnóstico de câncer de mama usando imagens. 


Este livro se destina a docentes, técnicos e discentes que tenham interesse na área 
de Inteligência Computacional. Modestamente, este serve como introdução a esta área de 
conhecimento e a algumas ferramentas atualmente disponíveis, mas também apresenta 
alguns apontamentos para trabalhos futuros e necessidades relacionados aos problemas 
abordados e aos ferramentais utilizados ou que podem servir como alternativa. 
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NTO DE PADRÕES 


RESUMO: Sistemas computacionais que 
trabalhem com reconhecimento de padrões 
têm sido aplicados a problemas para auxiliar 
especialistas humanos. Tais problemas, assim 
como a identificação de traços de concreto, 
são caracterizados como processos repetitivos, 
monótonos e demorados, demandam altos 
níveis de experiência e produzem resultados 
sujeitos a fatores físicos e subjetivos. Este artigo 
apresenta uma proposta para identificar diferentes 
composições de concreto por meio de visão 
computacional. Para isso, foram empregados 
ferramentais amplamente conhecidos na área de 
aprendizagem de máquina. As melhores taxas de 
acerto compreendem 84,7% usando o descritor 
GLCM. 

PALAVRAS-CHAVE: Construção civil. 
civil. Segurança pública. Automação. 


Defesa 


IDENTIFICATION OF CONCRETE 
COMPOSITION THROUGH PATTERN 
RECOGNITION 


ABSTRACT: Computer systems applied to pattern 
recognition have been used to problems to assist 
human experts. Such problems, as well as the 
identification of concrete traces, are characterized 
as repetitive, monotonous and time-consuming 
processes, requiring high levels of experience 
and producing results influenced by physical and 
subjective factors. This paper presents a proposal 
to identify different concrete traces through 
computer vision. For this, tools widely known in 
the machine learning area were employed. The 
best hit rates comprise 84.7% using the GLCM 
descriptor. 

KEYWORDS: Construction. Civil defense. Public 
security. Automation. 
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11 INTRODUÇÃO 


Os traços de concreto são caracterizados por seus componentes e as respectivas 
quantidades. Tal definição é uma característica extremamente importante em qualquer obra 
e muda de acordo com a finalidade de aplicação: lajes, contrapisos, muros, fundações, 
calçadas, vigas, etc. Além disso, a proporção e a origem dos materiais exercem influência 
nas características finais do traço, dentre as quais tem-se resistência, durabilidade e 
trabalhabilidade. Dentre os materiais comumente utilizados, tem-se cimento, areia, brita e 
água, mas concretos com características especiais podem ser obtidos com o acréscimo de 
aditivos, isopor, pigmentos, fibras ou outros tipos de adições (ABNT, 2015; MALTA, 2012; 
MONTEIRO, 2010). 


A principal função dos agregados é aumentar o volume final e torná-lo mais 
econômico. Suas propriedades têm influências da formação geológica local, pois estes são 
extraídas de jazidas próximas às localidades de dosagem e edificação. O conhecimento 
das características individuais dos elementos, e também de sua combinação, é essencial 
para garantir certas características fundamentais ao concreto e a segurança da estrutura. 
Além disso, materiais com diferentes granularidades podem ser combinados dependendo 
da finalidade e produzem diferentes características texturais (ABNT, 2015; BAUER, 1994; 
MALTA, 2012; MEHTA; MONTEIRO, 2008; MONTEIRO, 2010). 


A água deve ser adicionada em quantidade suficiente para envolver os grãos e 
promover a hidratação do cimento, além de atender os requisitos da ABNT NBR 15900- 
1, a qual também contempla exigências de utilização da água sob a forma de gelo. Sua 
função é ativar a reação química que transforma o cimento em uma pasta aglomerante 
que criará um bloco único com a areia e a brita (agregados). Se em excesso, ter-se-á uma 
pasta mais porosa e melhores níveis trabalhabilidade. Porém, também piores níveis de 
resistência e aderência entre a pasta e o agregado devido à exsudação. Para a definição de 
tal proporção é necessário identificar o teor de umidade dos agregados, pois estes podem 
transportar diferentes quantidades de água para o concreto e ocasionar o decréscimo de 
sua resistência mecânica (ABNT, 2009; ABNT, 2015; MALTA, 2012; MONTEIRO, 2010). 


Além dos custos envolvidos devido a degradação destas estruturas, o risco em 
termos de colapsos estruturais merece atenção. Nos últimos anos, têm sido recorrentes os 
casos de colapsos de estruturas, dentre os quais tem-se o colapso parcial de um viaduto 
em Brasília no ano de 2018 (VIADUTO, 2018), a interdição do acesso à Rodovia Presidente 
Dutra em São Paulo no ano de 2019 (PREFEITURA, 2019) e o desabamento de prédios na 
comunidade de Muzema, na Zona Oeste do Rio, em 2019 (MAIA; GARCIA, 2019). Portanto, 
estudos pertinentes que auxiliem a fiscalização e a prevenção destes acontecimentos são 
necessários com vistas a garantir estruturas mais seguras e duráveis e manutenções 
preventivas. 


Além do exposto, outra importante característica deste cenário compreende o fato 
de que as inspeções para avaliar a composição do concreto e também se este mantém 
suas propriedades são realizadas visualmente por especialistas humanos. Tais inspeções 
demandam altos níveis de experiência por ser um fator decisivo para uma correta avaliação. 
Dentre as possíveis ferramentas a serem empregadas, tem-se filmadoras, máquinas 
fotográficas, lupas e binóculos (ABNT, 2014; SCHVAICKARDT; MATTOS, 2018). 


A Figura 1 ilustra o problema abordado no projeto e o grau de dificuldade a ele 
inerente. Suas imagens foram obtidas a partir de dois diferentes traços (cimento : areia 
: brita : água), com as proporções (1 : 1,49 :2,88:0,48) e (1:1,49:2,70: 0,48). Neste 
exemplo, pode-se nitidamente observar a variação na quantidade de britas entre os 
concretos. 





(a) (b) 
Figura 1: Composições de concreto (cimento : areia : brita : água): (a) 1:1,49:2,88: 0,48; (b) 
1:1,49:2,70 :0,48. 


Fonte: Autoria própria (2020). 


Diante do exposto, esta artigo apresenta uma alternativa para auxiliar as inspeções 
realizadas por especialistas humanos a identificar a composição do concreto. Esta 
propicia vantagens relativas à rapidez e precisão quando comparado à avaliação realizada 
manualmente. A redução de fatores físicos e subjetivos inerentes ao ser humano também 
reduz o número de etapas executadas manualmente e sua influência nos resultados finais. 
Tal influência compreende questões como subjetividade dos especialistas humanos e 
características do processo (repetitivo, monótono e demorado), além de requerer alto grau 
de concentração. Este conjunto de exigências sobrecarrega o profissional que realiza a 
inspeção e o leva a possíveis distrações e baixas taxas de acerto (CONNERS etal., 1997; 
PHAM; ALCOCK, 1997; RADOVAN et al., 2001). 


21 MATERIAIS E MÉTODOS 


Sistemas computacionais que trabalhem com reconhecimento de padrões geralmente 
apresentam as seguintes etapas: aquisição da base de dados, pré-processamento, 
segmentação, extração de características e classificação. Cada uma constitui um diferente 
contexto, possui diferentes níveis de complexidade e envolve conhecimentos específicos e 
próprios, além daqueles inerentes ao domínio da aplicação. 

Diante da importância do tema, um amplo conjunto de trabalhos têm sido 
desenvolvido, inclusive a partir da base de imagens empregada neste estudo. Tal fato implica 
na execução das etapas anteriormente apresentadas utilizando diferentes ferramentais, 
mas ainda considerando o foco de cada uma delas em sua essência. 


Na primeira etapa foi obtida a base de dados, ou seja, o conjunto de imagens, 
padrões e etc. Inicialmente foram preparados os corpos de prova de concreto sob a forma 
cilíndrica e com medidas de 10 cm de diâmetro e 20 cm de altura. Foram utilizadas 2 
corpos de prova de concreto para cada um dos diferentes traços analisados. Tal escolha é 
consequência do fato (e se adequa a ele) de que 2 (dois) corpos de prova são construídos 
com amostras de cada carga de concreto utilizada nas construções. 


Os traços utilizados para a construção dos corpos de prova consideraram a 
proporção 1: 1,41: 2,01: 0,49 utilizando cimento do tipo Portland CPII, areia média, brita 
zero e água potável disponibilizada pela companhia de saneamento. Para avaliar a variação 
da granularidade do agregado brita, foi utilizada uma variação do traço padrão com a troca 
da brita zero pela brita um, gerando o traço 1: 1,49: 2,60: 0,49. Nesta variação de traço, 
tem-se um uso maior dos agregados (areia e brita) devido a um maior volume e superfície 
de cada unidade do agregado brita, sendo necessária menor quantidade de cimento para 
a construção de peças com um mesmo volume final (Figura 1). 


Na sequência, foram realizados cortes transversais a cerca de 5 mm da base e outro 
5 mm do topo do corpo de prova. Tais cortes estão ilustrados na Figura 2(a) e seu objetivo 
de ambos os cortes é eliminar a camada superficial e expor a caracterização da composição 
real do concreto, tal como apresenta a Figura 2(b). A partir disto, foram realizados outros 8 
cortes transversais em cada corpo de prova de concreto. Considerando que as lâminas de 
corte têm aproximadamente 2 mm, sendo obtido um total de 9 amostras distintas para cada 
corpo de prova. Considerando as duas faces de cada amostra, chegou-se a um total de 18 
imagens para cada corpo de prova. Ao todo, foram utilizadas 72 imagens para construção 
dos modelos de reconhecimento dos traços de concreto. 


O pré-processamento aplica operações para realçar as características importantes 
no processo de diferenciação das classes existentes no problema. Nesta etapa, basicamente 
foi utilizada a biblioteca OpenCV para converter a base toda em escala de cinza, tal como 
ilustra as imagens da Figura 2(b-c). 


A segmentação compreende a próxima etapa do processo e busca separar apenas 
a região de interesse da imagem original e da qual depende o sucesso de um modelo de 
identificação ou de classificação. O processo de segmentação se refere ao método de 
“fragmentar” uma imagem em múltiplas regiões, com o objetivo de simplificar ou mudar sua 
representação, a fim de facilitar sua análise. Nesta etapa, buscou-se por uma imagem que 
estivesse toda formada pela área de interesse, tal como ilustrado na Figura 2(f). As imagens 
da Figura 2(c-d) representam a aplicação da técnica de limiarização para destacar o objeto 
na imagem. Na sequência, aplicou-se o algoritmo de detecção de bordas Canny (BUENO, 
2020) para ressaltar os contornos das bordas dos objetos e a função HoughCircles da 
biblioteca OpenCV para identificar objetos semelhantes a circunferências na imagem. 
Ao final, após selecionar a maior circunferência identificada com a definição do traço de 
concreto e calcular seu raio, Figura 2(e), definiu-se e salvou-se o retângulo circunscrito na 
mesma, culminando na Figura 2(f). 


Para a etapa de Extração de Características, busca-se representar a imagem por 
meio de um vetor numérico de medidas. Nesta etapa foram utilizados os descritores GLCM 
(Gray Level Co-occurrence Matrix) e LBP (Local Binary Pattern, Padrão Binário Local) 


apresentados nas seções seguintes. 


Por fim, na etapa de classificação foi utilizada o algoritmo KNN (k-Nearest Neighbors, 
k-vizinhos mais próximos), o qual utiliza o conjunto de treinamento como referências 
durante o processo de predição de uma classe para uma instância do conjunto de testes. 


Diferentes tamanhos de vizinhanças foram testadas. 
(c) 
(f) 





(a) 
(d) 
Figura 2: Ilustração do processo de reconhecimento de padrões: ( a ) corpo de prova de 


concreto; ( b) corte do corpo de prova; ( c) pré-processamento com conversão para níveis de 
cinza; ( d-e ) segmentação. 


(e) 


Fonte: Autoria própria (2020). 


Para a definição dos conjuntos de treinamento e teste, dividiu-se a base de imagens 
em 3 partes (folds), os quais mantinham a representatividade das classes pertencentes ao 
problema em questão. Foi empregada validação cruzada com 3 execuções, sendo que em 
que execução, um parte era usada como conjunto de teste e as outras duas eram utilizadas 
como conjunto de treinamento. Os resultados finais são expressos pela acurácia média 
(acertos do classificador) e desvio padrão (dp) das taxas de classificações corretas das 
três execuções. 


2.1 Matriz de Coocorrência de Níveis de Cinza 


Matriz de Coocorrência de Níveis de Cinza (Gray Level Co-occurrence Matrix - 
GLCM) é um método estatístico proposto por Haralick e se caracteriza como um dos mais 


conhecidos métodos que exploram repetições de ocorrências de padrões. Tais padrões são 
caracterizados pela dependência entre os níveis de cinza dos pixels das imagens e por sua 
distribuição espacial. As repetições dos padrões provêem medidas quanto a propriedades 
como rugosidade, suavidade e regularidade sob diferentes perspectivas com a variação 
dos parâmetros direção e distância (HARALICK, 1979). 


Formalmente, Haralick fundamenta GLCM pela seguinte definição: dada uma 
imagem | com dimensões N, x N. talque L =[1,N]JeL,= [1,N] representam os possíveis 
valores para linhas e colunas, respectivamente; e L = [1,N Jo conjunto de N, níveis de cinza 
quantizados de |. A imagem | pode ser representada como uma função que associa algum 
nível de cinza de G a uma célula ou par de coordenadas de L xL . Ou seja, I:L xL - G 
(HARALICK, 1979; PEDRINI; SCHWARTZ, 2008). 


A partir disto, Haralick define o uso de uma matriz N, x N, para representar a 
frequência P,, tal que um pixel p, possua nível de cinza n, e um pixel vizinho a p, (p' - a uma 
distância d e um ângulo a) possua nível de cinza n,. Embora Haralick tenha estabelecido 
ângulos com intervalos de 45 graus, os cálculos podem assumir outros ângulos (HARALICK, 
1979; TOU, 2007). 


Seguindo as definições anteriores, as GLCM da Figura 3 (b) foi gerada para a 
imagem da Figura 3(a) com N = 5, distância d = 1 e direção O grau, respectivamente. 
Dentre as possíveis medidas extraídas de GLCM, tem-se as apresentadas por Haralick: 
Segundo Momento Angular, Contraste (Soma do Quadrado da Variância), Correlação, 
Variância (Soma dos Quadrados), Momento de Diferença Inverso (Homogeneidade), 
Soma da Média, Soma da Variância, Soma da Entropia, Entropia, Diferença da Variância, 
Diferença da Entropia, Informação de Medidas de Correlação 1, Informação de Medidas de 
Correlação 2 e Coeficiente de Correlação Máxima (HARALICK, 1979). 


Embora a proposta inicial tenha definido 14 elementos, diferentes trabalhos 
consideram diferentes subconjuntos destes e afirmam haver correlações ou redundâncias 
entre as informações provenientes de alguns deles. Assim, aqui empregou-se apenas 
seis das características propostas por Haralick (1979): energia, contraste, entropia, 
homogeneidade, probabilidade máxima e momento de terceira ordem. Tais características 
têm suas equações apresentadas a seguir. N, é o número de diferentes níveis de cinza 
da imagem; i e j são os níveis de cinza e servem como índices da GLCM; e P(ij) é a 
probabilidade de co-ocorrência do par (i,j) de níveis de cinza. 





(a) Imagem 1. (b) GLCM 0º para |. 
Figura 3: Geração de GLCMs. 
Fonte: Martins (2014). 
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2.2 Padrão Binário Local 


Classificado como um método estrutural, o Padrão Binário Local (Local Binary 
Pattern — LBP) foi introduzido, em 1996, como uma medida complementar para contraste 
local de uma imagem em níveis de cinza, sendo definido como invariante a mudanças 
monotônicas dos níveis de cinza. Em sua versão original, LBP considera uma vizinhança-8 
e distância um para o pixel central (x,.y,) de uma máscara com dimensões 3 x 3, tal como 
ilustra a Figura 4 (a) (MÃENPÃÃ et. al., 2000). 


Cada ponto da imagem é tomado como sendo o ponto central (x,,y.), cujo valor é 
utilizado como limiar na comparação com o conteúdo de cada um de seus vizinhos (x,y). 
Como ilustrado na Figura 4 (b), desta comparação gera-se uma cadeia de zeros e uns, pois 
cada vizinho assume o valor um se seu conteúdo for maior que o do ponto central (x,,y,) e 
zero caso contrário. A organização dessa cadeia considera a posição relativa j de cada um 
dos vizinhos, iniciando do canto superior-esquerdo com valor zero e circundando o ponto 
central no sentido anti-horário, tal como apresentado na Figura 4 (c). Ao ser tomada como 
uma representação em base dois e convertida para a base dez, Figura 4 (d-e), tem-se o 
padrão que representa a região sobreposta pela máscara (MÃENPÃÃ et. al., 2000). 


Após gerar os padrões para todos os pontos da imagem, as frequências destes 
padrões são contabilizadas por meio de um histograma com um total de 2º padrões para P 
vizinhos. A consideração de P = 8, Figura 4 (a) gera um total de 256 padrões de transição de 
bits, Figura 4 (b). Dentre estes padrões, apenas 58 atendem a definição de uniformidade, 
isto é, a ocorrência de, no máximo, duas transições do valor zero para um e vice-versa. 
Todos os demais padrões são contabilizados juntos, levando a um total de 59 valores para 


o descritor denominado LBP uniforme (LBP'2), 





LBP=1+2+4+16+128=151 
(e) 


Figura 4: Cálculo do padrão LBP. 
Fonte: Martins (2014, p. 34). 


31 RESULTADOS E DISCUSSÃO 


Para cada etapa do processo de reconhecimento de padrões foram testados 
diferentes parâmetros, muitos dos quais já identificados anteriormente na seção de 
materiais e métodos. Para GLCM, foram testadas diferentes distâncias, enquanto que para 
LBP foram testados diferentes raios e números de vizinhos. A Figura 5 apresenta a variação 
das acurácias alcançadas com diferentes tamanhos de vizinhanças para o algoritmo k-NN, 
considerando as melhores configurações relativas a LBP e GLCM. 
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Figura 5: Gráfico com a evolução da acurácia em decorrência da variação da 
vizinhança utilizada no k-NN. 


Fonte: Autoria própria (2020). 
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Os melhores resultados gerais alcançados foram 74,0% (dp = 0,01) para LBP, com 
raio igual a 1 e k (k-NN) igual a 6. Para GLCM, obteve-se 84,7% (dp = 0,04), com distância 
5 e k (k-NN) igual a 9. Tais resultados se mostraram bem interessantes, principalmente 
para o problema em questão, o qual envolve segurança e vidas humanas, além dos altos 
valores monetários envolvidos na construção e também manutenção das edificações. 
Além do exposto, tem-se o fato de que o descritor GLCM representa uma complexidade 
computacional bem menor para sua extração. 


41 CONSIDERAÇÕES FINAIS 


Este trabalho avaliou a aplicação de classificadores construídos a partir dos 
descritores GLCM e LBP ao problema de reconhecimento de traços de concreto por meio 
de imagens. Os resultados obtidos se mostraram bastante promissores, sendo que as 
melhores taxas de reconhecimento foram 84,7% (dp = 0,04), com k (k-NN) igual a 9 para 
o descritor GLCM. 


Na sequência busca-se pela ampliação da base de imagens, com maior variedade 
de traços. A ampliação da base representará um desafio maior e, por isso, buscar- 
se-á por novos descritores e algoritmos de seleção e combinação de classificadores 
na tentativa de melhorar os resultados obtidos. Diante deste problema mais desafiador, 
tem-se a concatenação dos vetores de características como alternativa à realizada neste 
trabalho, bem como a construção de modelos independentes a partir dos mesmos vetores 
de características, com a seleção e combinação de alguns dos modelos previamente 
construídos. Um estudo comparativo de ambas as abordagens foi apresentada por Martins, 
Oliveira e Sabourin (2012), o qual demonstrou a superioridade desta nova abordagem. 
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SCRITORES BASEADOS EM PONTOS 


DE ATENÇÃO 


RESUMO: Edificações são amplamente 
dependentes da combinação de estruturas de 
concreto e aço. Acomposição do concreto, também 
chamado traço, é um fator de grande importância, 
sendo que os principais elementos são cimento, 
areia, brita e água. Tanto a proporção quanto a 
origem destes materiais exercem influência nas 
características finais do traço, dentre as quais tem- 
se resistência, durabilidade e trabalhabilidade. 
Inserido neste contexto, o presente artigo avalia 
três descritores baseado em pontos de atenção 
para identificar diferentes composições de 
concreto. Os melhores resultados foram obtidos 
por meio do descritor SURF e atingiram 87,1% de 
acerto. 

PALAVRAS-CHAVE: Construção civil. 
civil. Segurança pública. Automação. 


Defesa 


IDENTIFICATION OF CONCRETE TRACES 
THROUGH KEYPOINT-FEATURES-BASED 
DESCRIPTORS 


ABSTRACT: Buildings are largely dependent on 
the combination of concrete and metal structures. 
The composition of concrete, also called dosage or 
trace, is a factor of great importance, and its main 
elements are cement, sand, gravel, and water. 
Both, proportion and the origin of these materials, 
have influence on the final characteristics of the 
traces, i.e., resistance, durability, and workability. 
In this context, this paper evaluates three 
keypoint-features-based descriptors to identify 
different concrete compositions. The best results 
were obtained by using the SURF descriptor and 
achieved 87,1% of correct classification. 
KEYWORDS: Construction. Civil defense. Public 
security. Automation. 


Capítulo 2 


11 INTRODUÇÃO 


A composição do concreto, também chamado traço, é uma característica 
extremamente importante em qualquer obra e muda de acordo com a finalidade de 
aplicação: lajes, contrapisos, muros, fundações, calçadas, vigas etc. Tanto a proporção 
quanto a origem dos materiais exercem influência nas características finais do traço, dentre 
as quais tem-se resistência, durabilidade e trabalhabilidade. Dentre os materiais comumente 
utilizados, tem-se cimento, areia, brita e água, mas concretos com características especiais 
podem ser obtidos com o acréscimo de aditivos, isopor, pigmentos, fibras ou outros tipos de 
adições (ABNT, 2015; MALTA, 2012; MONTEIRO, 2010). 


A quantidade de água deve ser suficiente para envolver os grãos e promover a 
hidratação do cimento, além de atender os requisitos da ABNT NBR 15900-1. Esta ativa 
a reação química que transforma o cimento em uma pasta aglomerante que criará um 
bloco único com a areia e a brita (agregados). Se em excesso, ter-se-á uma pasta mais 
porosa e melhores níveis trabalhabilidade. Porém, também piores níveis de resistência e 
aderência entre a pasta e o agregado devido à exsudação. A definição de tal proporção 
também envolve a identificação do teor de umidade dos agregados (ABNT, 2009; ABNT, 
2015; MALTA, 2012; MONTEIRO, 2010). 


Os agregados são adicionados à pasta de cimento e água para aumentar o 
volume final e torná-lo mais econômico. Suas propriedades têm influências da formação 
geológica local, visto que são extraídas de jazidas próximas às localidades de dosagem 
e edificação. O conhecimento das características individuais dos elementos, e também de 
sua combinação, é essencial para garantir certas características fundamentais ao concreto 
e a segurança da estrutura. Além disso, materiais com diferentes granularidades podem 
ser combinados dependendo da finalidade e produzem diferentes características texturais 
(ABNT, 2015; BAUER, 1994; MEHTA; MONTEIRO, 2008). 


Além dos custos devido a degradação das estruturas, o risco em termos de colapsos 
estruturais merece atenção. Nos últimos anos, têm sido recorrentes os casos de colapsos 
de estruturas, dentre os quais tem-se o colapso parcial de um viaduto em Brasilia no ano 
de 2018 (VIADUTO, 2018), a interdição do acesso à Rodovia Presidente Dutra em São 
Paulo no ano de 2019 (PREFEITURA, 2019) e o desabamento de prédios na comunidade 
de Muzema, na Zona Oeste do Rio, em 2019 (MAIA; GARCIA, 2019). Portanto, estudos 
pertinentes ferramentas que auxiliem a fiscalização e a prevenção destes acontecimentos 
são necessários com vistas a garantir estruturas mais seguras e duráveis e manutenções 
preventivas. 


É importante destacar que as inspeções para avaliar a composição do concreto, e 
também se este mantém suas propriedades, são realizadas visualmente por especialistas 
humanos. Tais inspeções demandam altos níveis de experiência por ser um fator decisivo 
para uma correta avaliação. Dentre as possíveis ferramentas a serem empregadas, tem- 
se filmadoras, máquinas fotográficas, lupas e binóculos (ABNT, 2014; SCHVAICKARDT; 
MATTOS, 2018). 


As imagens da Figura 1 foram obtidas a partir de dois diferentes traços (cimento 
: areia : brita : água), com as proporções (1 :1,49:2,88:0,48) e (1:1,49:2,70: 0,48). 
Nelas, pode-se nitidamente observar a variação na quantidade de britas entre os concretos 


e o grau de dificuldade a ele inerente. 





(a) (b) 
Figura 1: Composições de concreto (cimento : areia : brita : água): (a) 1:1,49:2,88: 0,48; 
(b) 1:1,49:2,70:0,48. 


Fonte: Autoria própria (2020). 


Diante do exposto, este artigo apresenta uma proposta para auxiliar as inspeções 
realizadas para identificar a composição de traços de concreto. Tal solução propicia 
vantagens relativas à rapidez e precisão quando comparado à avaliação realizada por 
especialistas humanos. A redução de fatores físicos e subjetivos inerentes ao ser humano 
também reduzir o número de etapas executadas manualmente e sua influência nos 
resultados finais. Tal influência compreende questões como subjetividade do especialistas 
humanos e características do processo (repetitivo, monótono e demorado), além de requerer 
alto grau de concentração. Este conjunto de exigências sobrecarrega o profissional que 
realiza a inspeção e o leva a possíveis distrações e baixas taxas de acerto (CONNERS et 
al., 1997; PHAM; ALCOCK, 1997; RADOVAN et al., 2001). 


21 MATERIAIS E MÉTODOS 


Sistemas computacionais com foco em reconhecimento de padrões contemplam as 
seguintes etapas: aquisição, pré-processamento, segmentação, extração de características 
e classificação. Cada etapa constitui um diferente contexto, possui diferentes níveis de 
complexidade e envolve conhecimentos específicos e próprios, além daqueles inerentes 
ao domínio da aplicação. 


Diante da importância do tema, diversos trabalhos têm sido desenvolvidos, inclusive 
a partir da base de imagens aqui utilizada. Tal fato implica na execução das etapas 
apresentadas utilizando diferentes ferramentais, mas ainda considerando o foco de cada 
uma delas em sua essência. 


Durante a aquisição, a imagem é capturada e armazenada utilizando sistemas de 
cores, resolução e quantização específicos. Nesta primeira etapa foi obtida a base de 
dados, ou seja, o conjunto de imagens, padrões e etc. Inicialmente foram preparados os 
corpos de prova de concreto sob a forma cilíndrica e com medidas de 10 cm de diâmetro 
e 20 cm de altura. Foram utilizadas 2 corpos de prova de concreto para cada um dos 


diferentes traços analisados. Tal escolha é consequência do fato (e se adequa a ele) de 
que 2 (dois) corpos de prova são construídos com amostras de cada carga de concreto 
utilizada nas construções. 


Os traços utilizados para a construção dos corpos de prova consideraram a 
proporção 1: 1,41: 2,01: 0,49 utilizando cimento do tipo Portland CPII, areia média, brita 
zero e água potável disponibilizada pela companhia de saneamento. Para avaliar a variação 
da granularidade do agregado brita, foi utilizada uma variação do traço padrão com a troca 
da brita zero pela brita um, gerando o traço 1: 1,49: 2,60: 0,49. Nesta variação de traço, 
tem-se um uso maior dos agregados (areia e brita) devido a um maior volume e superfície 
de cada unidade do agregado brita, sendo necessária menor quantidade de cimento para 
a construção de peças com um mesmo volume final (Figura 1). 


Na sequência, foram realizados cortes transversais a cerca de 5 mm da base e outro 
5 mm do topo do corpo de prova. Tais cortes estão ilustrados na Figura 2(a) e seu objetivo 
de ambos os cortes é eliminar a camada superficial e expor a caracterização da composição 
real do concreto, tal como apresenta a Figura 2(b). A partir disto, foram realizados outros 8 
cortes transversais em cada corpo de prova de concreto. Considerando que as lâminas de 
corte têm aproximadamente 2 mm, sendo obtido um total de 9 amostras distintas para cada 
corpo de prova. Considerando as duas faces de cada amostra, chegou-se a um total de 18 
imagens para cada corpo de prova. Ao todo, foram utilizadas 72 imagens para construção 
dos modelos de reconhecimento dos traços de concreto. 


Devido à possibilidade de problemas decorrentes da aquisição, o pré-processamento 
foca a melhoria da qualidade da imagem. As imagens da Figura 2(b-c) apresentam o pré- 
processamento realizado, com a aplicação de operações para realçar as características 
importantes no processo de diferenciação das classes existentes no problema. Neste caso, 
basicamente toda a base de imagens foi convertido para escalas de cinza. 


A próxima etapa compreende a segmentação, a qual busca separar apenas a 
região de interesse da imagem original e da qual depende o sucesso de um modelo de 
identificação ou de classificação. Nesta etapa, buscou-se por uma imagem que estivesse 
toda formada pela área de interesse, tal como ilustrado na Figura 2(f). As imagens da 
Figura 2(c-d) representam a aplicação da técnica de limiarização para destacar o objeto 
na imagem. Na sequência, aplicou-se o algoritmo de detecção de bordas Canny (BUENO, 
2020) para ressaltar os contornos das bordas dos objetos e a função findContours da 
biblioteca OpenCV para identificar os objetos. Esta função retorna os contornos de todos os 
possíveis objetos presentes na imagem, seja do próprio traço de concreto, das britas ou de 
qualquer outra região com contraste em relação a seu entorno. A partir da identificação dos 
possíveis objetos, os pontos pertencentes ao maior contorno com a definição do traço de 
concreto foram selecionados. Após o cálculo do raio da circunferência, definiu-se e salvou- 
se o retângulo circunscrito na mesma, Figura 2(e), culminando na Figura 2(f). 


A etapa de Extração de Características permite identificar uma abstração (descritor 
ou conjunto de características) adequada para a representação e a descrição das áreas 
de interesse, a qual é constituída por um vetor numérico de medidas. Nesta etapa foram 
utilizadas características extraídas de pontos de atenção. Os pontos de atenção são 
amplamente empregados na identificação de objetos em problemas relacionados no 


rastreamento de objetos, principalmente no monitoramento de ambientes como aeroportos. 
As características extraídas dos pontos de atenção detectados possuem alto potencial 
devido aos padrões texturais decorrentes das composições dos traços de concreto (Figura 


1). 
(a) (c) 
(d) (f) 
Figura 2: Ilustração do processo de reconhecimento de padrões: ( a ) corpo de prova de 


concreto; ( b) corte do corpo de prova; ( c) pré-processamento com conversão para níveis de 
cinza; ( d-e ) segmentação. 





E: 


Fonte: Autoria própria (2020). 


Foram utilizados os descritores Transformação de Características Invariantes à 
Escala (Scale Invariant Feature Transform - SIFT), Características Robustas Aceleradas 
(Speed-Up Robust Feature - SURF) e Regiões Extremas Maximamente Estáveis (Maximally 
Stable Extremal Regions - MSER), os quais são descritos nas seções seguintes. Devido 
à variação do número de regiões e pontos identificados em cada imagem, optou-se por 
utilizar momentos estatísticos para padronizar sua representação. Foram calculadas média, 
variância, obliquidade e curtose para cada coluna dos vetores gerados pelos descritores. 
Ao final, obteve-se quatro vetores de características para cada imagem, sendo um para 
cada momento estatístico anteriormente definido. Esta abordagem é comumente utilizada 
com filtros de Gabor (YANG; NEWSAM, 2008; ZHU et al., 2008). 


A classificação utiliza as representações anteriores para diferenciar os objetos nas 
imagens, atribuindo-lhes identificadores e significados de acordo com suas características 
e descritores (PEDRINI; SCHWARTZ, 2008). Nesta etapa foi utilizado o algoritmo Máquinas 
de Vetores de Suporte (Support Vector Machine - SVM), por meio da implementação LibSVM 
3.2 disponibilizada no endereço eletrônico http://www. csie.ntu.edu.tw/-cjlin/libsvm/. Dentre 


as possibilidades disponibilizadas pela biblioteca, os melhores resultados foram obtidos 
com a função de base radial Gaussiana e uma busca gulosa para encontrar os melhores 
parâmetros C e y. A normalização dos dados considerou a escala linear de cada atributo 
dos vetores de características no intervalo [-1,+1]. 


Diferentes avaliações foram consideradas a partir dos vetores de características 
com os momentos estatísticos anteriormente descritos, além de uma avaliação utilizando 
apenas número de pontos de atenção identificados em cada imagem como característica. 
Para a definição dos conjuntos de treinamento e teste, dividiu-se a base de imagens em 
3 partes (folds), os quais mantinham a representatividade das classes pertencentes ao 
problema em questão. Foi empregada validação cruzada com 3 execuções, sendo que em 
que execução, um parte era usada como conjunto de teste e as outras duas eram utilizadas 
como conjunto de treinamento. Os resultados finais são expressos pela acurácia média 
(acertos do classificador) e desvio padrão (dp) das taxas de classificações corretas das 
três execuções. 


2.1 Transformação de Características Invariantes à Escala 


SIFT foi proposto por Lowe (1999) com o objetivo de identificar regiões de interesse 
e extrair características que permitam a comparação de imagens de objetos ou cenas 
capturadas de diferentes perspectivas. A detecção dos pontos de interesse é realizada 
por um processo de filtragem em cascata tomando uma mesma imagem sob diferentes 
escalas. A cada iteração são tomadas novas amostras dos pixels da imagem, as quais 
são geradas pela interpolação bilinear dos pontos contidos numa vizinhança de raio 1,5 
da escala imediatamente anterior. Este processo garante a estabilidade do descritor, pois 
tenta correlacionar uma região detectada em uma iteração com aquelas identificadas nas 
demais iterações. Além disso, os pontos identificados apresentam diferenças máximas e 
mínimas da função Gaussiana. Estas altas variações das regiões e escalas constituem 
as principais garantias para a estabilidade do descritor e para a invariância a translação, 
escala e rotação, além de invariância parcial a mudanças de iluminação e projeções 3D 
(LOWE, 1999, 2004). 


Embora o descritor SIFT considere um conjunto de 4x4 descritores computados 
em uma vizinhança 16x16, a Figura 3(b) mostra apenas 2x2 descritores computados 
em uma vizinhança 8x8 a partir da Figura 3(a), o que não prejudica o entendimento. 
Os gradientes da Figura 3(a) são ponderados pela Gaussiana e acumulados em um 
histograma de orientação que sumariza os conteúdos em 4x4 sub-regiões, Figura 3(b), 
com o comprimento das arestas correspondendo à soma das magnitudes dos gradientes 
que pertencem àquela sub-região e que possuem a mesma direção (LOWE, 1999, 2004; 
VEDALDI e FULKERSON, 2008). 

Considerando os histogramas das 4x4 regiões e que cada um acumula a avaliação 
dos gradientes nas oito direções possíveis, cada ponto é representado por um vetor de 
características com 128 elementos. Além disso, geralmente são detectados centenas ou 
até milhares de pontos para cada imagem, todos potencialmente candidatos a compor o 
conjunto de suas características (LOWE, 1999, 2004; VEDALDI e FULKERSON, 2008). 


Seguindo o padrão de representação SIFT, foram gerados vetores com 128 elementos 


para cada ponto identificado em cada imagem. Posteriormente, estes foram sumarizados 
por meio dos vetores com as representações dos quatro momentos estatísticos. Maiores 
detalhes quanto ao descritor SIFT e a metodologia adotada para ele podem ser obtidos em 
Martins (2014). 
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Figura 3: Descritor SIFT: (a) aplicação da máscara na imagem e obtenção dos gradientes 
para cada direção na região sobreposta; (b) acúmulo dos gradientes para cada sub-região 
para as oito direções. 


Fonte: Martins (2014). 


2.2 Características Robustas Aceleradas 


Proposto por Bay et al. (2006), Características Robustas Aceleradas (Speed-Up 
Robust Feature - SURF) apresenta semelhanças ao SIFT e permite detecção e descrição 
de regiões de interesse. Porém, este reduz a alta dimensionalidade e custo computacional 
do descritor SIFT, pois possui a metade do número de elementos do SIFT e é baseado em 
matrizes Hessianas e no conceito de imagens integrais. O uso de determinantes de matrizes 
Hessianas garante robustez quanto a estruturas mal localizadas e alongadas, maior 
estabilidade se comparados a detectores de cantos de Harris, além de boa performance 
em termos de tempo computacional e taxas de acerto (BAY et al., 2006, 2008). 


O uso das imagens integrais reduz drasticamente o tempo de computação devido 
aos filtros de convolução baseados em caixas. Por definição, cada elemento (x,y) de uma 
imagem integral representa a soma de todos os pixels da imagem original contidos na 
região retangular situada entre a origem e suas coordenadas (x, y). Diante disto, conforme 
ilustrado na Figura 4(a), o cálculo da soma dos pixels contidos em uma região qualquer 
requer apenas três operações de adição. Consequentemente, o tempo necessário para 
aplicar qualquer filtro à imagem permanece constante (independente de suas dimensões), 
todos os filtros são aplicados na imagem integral sem a necessidade de criar novas imagens 
por meio de interpolações, os componentes de alta frequência são preservados e poderão 
ser recuperados independentemente da escala corrente (BAY et al., 2006, 2008). 


Após identificar a região de interesse e sua orientação, conforme Figura 4(b), o 


próximo passo consiste em calcular os valores do descritor. Para isso, conforme Figura 
4(c), define-se uma região quadrada (8x8) centrada no ponto de interesse e alinhada 
com a orientação previamente identificada. Para cada um dos 64 elementos, obtém-se 
a resposta da wavelet de Haar nas direções x e y, denominadas respectivamente d, e d,. 
Para cada sub-região 2x2, d,, d, Idd e Idj são acumuladas separadamente, gerando 16 
conjuntos com as quatro características (2d,zd, 2ld] e 2Id, 1), num total de 64 elementos. 
Ao final, como SIFT, geralmente são detectados centenas ou até milhares de pontos para 
a imagem. Todos estes pontos são invariantes à translação, escala e rotação, além de 
ser parcialmente invariante a mudanças de iluminação e projeções 3D e potencialmente 
candidatos a compor o conjunto de características que descreve a imagem (BAY et al., 
2006, 2008). 





(b) 


Figura 4: Processo de cálculo para o descritor SURF: (a) imagem integral; (b) janela 
deslizante de orientação com ângulo 13; (c) aplicação da máscara 8x8 alinhada com a 
orientação identificada e obtenção dos gradientes para cada direção na região sobreposta 
da imagem (esquerda), seguido do acúmulo dos gradientes para cada subregião (direira). 


Fonte: Autoria própria (2020). 


Os autores também apresentaram a variante SURF-128, a qual duplica o número de 
características que compõem o vetor final. Esta variante acumula d, e Id | separadamente 
para d, <0e d, > 0, sendo o mesmo considerado para d, e Idj de acordo com o sinal de d,. 
Embora esta variação garanta descritores mais discriminantes, a maior dimensionalidade 
do vetor de características exige maiores recursos computacionais (BAY et al., 2006, 2008). 


Seguindo o padrão de representação SURF, foram gerados vetores com 64 e 
128 elementos para cada ponto identificado em cada imagem. Posteriormente, estes 
foram sumarizados por meio dos vetores com as representações dos quatro momentos 


estatísticos, gerando novos vetores com 64 ou 128 elementos. Maiores detalhes quanto ao 
descritor SURF e a metodologia adotada para ele podem ser obtidos em Martins (2014). 


2.3 Regiões Extremas Maximamente Estáveis 


Em 2002, Matas et al. (2002) conceituaram regiões extremas (Extremal Regions 
- ER) e propuseram o algoritlmo MSER para detectá-las. ERs são caracterizadas como 
componentes conexos invariantes a transformações das coordenadas das imagens 
e a transformações das intensidades de seus pixels. De forma simplificada, ERs são 
identificadas por meio de uma sequência de limiarizações da imagem original (em níveis 
de cinza) e das imagens binárias geradas. Tal sequência de imagens inicia com um quadro 
totalmente branco e termina com um outro totalmente negro, passando por diversas 
imagens intermediárias nas quais as regiões de interesse são identificadas. Tais regiões 
se tornam cada vez maiores e se fundem à medida que o valor utilizado como limiar é 
incrementado (LÓPES, 2011; MATAS et al., 2002). 





(d) (e) (f) 


Figura 5: Processo de definição das regiões extremas. Considere a imagem da Figura 1(b). 
Após esta ser convertida para níveis de cinza, diferentes limiares são aplicados e diferentes 
imagens binarizadas são geradas para a identificação das regiões extremas. As imagens (a) a 
(f) ilustram os resultados para os limiares 35, 50, 60, 81, 117 e 124. 


Fonte: Autoria própria (2020). 


De forma geral, as ERs são identificadas em função dos níveis de cinza dos pixels 
que as compõem e daqueles externos a elas. Ou seja, tais regiões são ou mais escuras ou 
mais claras que sua vizinhança, sendo estáveis diante de diferentes limiares no processo de 
binarização, conforme pode-se perceber na Figura 5. Os autores afirmam que essas regiões 
são estáveis e invariantes a escalas, a transformações das coordenadas das imagens e a 
transformações das intensidades de seus pixels. A enumeração destas regiões inicia com a 
ordenação dos pixels da imagem. Em seguida, tal sequência é percorrida e as posições dos 
pixels na imagem permitem que os componentes conexos e suas áreas sejam identificados 
e mantidos por meio do algoritmo union-find. Níveis de cinza caracterizados como mínimos 
locais da taxa de mudança da área são selecionados como limiares produzindo as MSERs 
(MATAS et al., 2002). 


Um fato importante a ser destacado é que MSER não possui um algoritmo para a 
extração de características. Assim, MSER foi utilizado para a identificação das regiões, 
enquanto que as características foram extraídas com o uso do SURF (BAY et al., 2006, 
2008). Como antes, foram gerados vetores com 64 e 128 elementos para cada região 
identificada em cada imagem. Posteriormente, estes foram sumarizados por meio dos 
vetores com as representações dos quatro momentos estatísticos, gerando novos vetores 
com 64 ou 128 elementos. Maiores detalhes quanto ao descritor MSER e a metodologia 
adotada para ele podem ser obtidos em Martins (2014). 


31 RESULTADOS E DISCUSSÃO 


Para cada etapa do processo de reconhecimento de padrões foram testados 
diferentes parâmetros, tal como identificados na seção de materiais e métodos. Os melhores 
resultados são apresentados nos Quadros 1 à 3. 








Atributos * Atributos % dp 
& Atributos 1 56,4 3,2 
Média 128 81,3 2,8 
Variância 128 84,8 2,9 
Obliquidade 128 81,4 7,9 
Curtose 128 82,5 53 





Quadro 1: Resultados obtidos para o descritor SIFT. 
Fonte: Autoria própria (2020). 











SURF-64 SURF-128 
Atributos 
& Atributos Yo dp & Atributos Yo dp 
* Atributos 1 57,6 1,4 1 57,6 1,4 
Média 648 822 35 128 789 2,3 
Variância 64 87,1 3,1 128 87,1 3,1 
Obliquidade 64 69,3 2,4 128 729 2,3 
Curtose 64 74,1 7,0 128 74,0 6,2 





Quadro 2: Resultados obtidos para o descritor SURF. 
Fonte: Autoria própria (2020). 





MSER-SURF-64 MSER-SURF-128 








Atributos 
* Atributos Yo dp & Atributos Yo dp 
* Atributos 1 62,5 5,5 1 625 5,5 
Média 64 634 6,4 128 61,1 3,1 
Variância 64 57,8 94 128 74,2 3,8 
Obliquidade 64 61,2 1,9 128 565 1,9 
Curtose 64 63,5 4,2 128 54,2 6,7 





Quadro 3: Resultados obtidos para o conjunto MSER-SURF. 
Fonte: Autoria própria (2020). 


Para SIFT, os melhores resultados alcançados foram 84,8% (dp = 2,9) utilizando 
os vetores obtidos pelo cálculo do momento estatístico variância para sumarizar as 
características dos pontos de atenção identificados em cada imagem. Já para SURF, 
ambas as versões com 64 e 128 atributos geraram 87,1% (dp = 3,1) para para variância. A 
combinação MSER-SURF, nas versões com 64 e 128 atributos, produziu 63,5% (dp = 4,2) 
para curtose e 74,2% (dp = 3,8) para variância, respectivamente. 


O problema em questão envolve segurança e vidas humanas, além dos altos valores 
monetários empregados na construção e manutenção das edificações. Os resultados 
obtidos se mostraram importantes, principalmente com as boas taxas de reconhecimento 
apresentadas. Além do exposto, destaca-se a combinação do identificador de regiões de 
interesse MSER e do descritor SURF. 


41 CONSIDERAÇÕES FINAIS 


Este trabalho avaliou a aplicação de classificadores construídos a partir de 
descritores baseados em pontos de atenção ao problema de reconhecimento de traços 
de concreto por meio de imagens. Os resultados alcançados são bastante promissores 
para problema abordado. Nossos resultados apontam para alternativas viáveis a serem 
empregadas, sendo que a melhor taxa de reconhecimento foi 87,1% (dp = 3,1) usando o 
descritor SURF. 


Os trabalhos futuros compreenderão a ampliação da base de imagens, com maior 
variedade de traços e imagens. Ao mesmo tempo, serão investigados novos descritores 


e opções para seleção e combinação de classificadores, tais como as apresentadas por 
Martins, Oliveira e Sabourin (2012). 
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RESUMO: Acorrosão das armaduras em estruturas 
de concreto é um dos principais mecanismos que 
leva a sua degradação e pode levar a colapsos 
estruturais. Dada importância do tema, este artigo 
aplica reconhecimento de padrões para auxiliar o 
processo de inspeção realizado por especialistas 
humanos. Este processo é repetitivo, monótono 
e demorado, além de demandar altos níveis de 
experiência e ter seus resultados influenciados 
por fatores físicos e subjetivos. Os melhores foram 
73,3% obtidos pela combinação do descritor TAS e 
do algoritmo de aprendizagem de máquinas SVC. 
PALAVRAS-CHAVE: Construção civil. Defesa 
civil. Segurança pública. Automação. 


IDENTIFICATION OF DETERIORATION 
IN STEEL BARS BY USING IMAGES OF 
CONCRETE SURFACE LAYER 


ABSTRACT: Reinforcement corrosion in concrete 
structures is one of the main mechanisms that 
lead to its degradation, and may lead to structural 
collapses. Due to the importance of this issue, 
this paper applies applies pattem recognition to 
help human experts in the inspection process. 
This process is repetitive, monotonous and time 
consuming, require high levels of experience and 
have its results, and is influenced by physical and 
subjective aspects. The best achieved results 
were 73.3% achieved by using TAS descriptor and 
SVC machine learning algorithm. 

KEYWORDS: Construction. Civil defense. Public 
security. Automation. 


Capítulo 3 


11 INTRODUÇÃO 


Acorrosão pode ser definida basicamente como a deterioração de um metal (ou liga) 
a partir do contato de sua superfície com o meio no qual este esteja inserido. O processo 
envolve reações de oxidação e de redução (redox) que convertem o metal ou componente 
metálico em óxidos ou hidróxidos expansivos (SILVA; PEREIRA; CODARO, 2015). 


Dentre os possíveis problemas relacionados à corrosão das armaduras, muitos têm 
relação com as características do concreto, cuja função é oferecer uma dupla proteção ao 
aço. Primeiramente, tem-se a proteção física com a separação do aço e do meio externo. 
Já a proteção química é decorrente do elevado pH da solução presente nos poros do 
concreto e consequente formação de uma película passivadora que envolverá o aço no 
interior do concreto (FIGUEIREDO; MEIRA, 2012). 


Dentre os fatores que influenciam o processo de corrosão do aço imerso no concreto 
estão: o coeficiente de difusão do concreto, a relação água/cimento, a espessura de 
cobrimento, a presença e a quantidade de adições, a umidade relativa, o pH do concreto e 
a temperatura de exposição (ANDRADE, 2001; GU; BEAUDOIN, 1998). 


Definida como um dos principais problemas relacionados a degradação de estruturas 
de concreto armado no mundo, a corrosão das armaduras pode demandar até 50% dos 
recursos financeiros investidos em construção civil para a reabilitação de estruturas 
degradadas (MEHTA; MONTEIRO, 2008). Segundo Cunha, Helene e Lourenço. (2013), 
tal problema consome direta ou indiretamente uma parcela significativa do produto interno 
bruto (PIB) de uma nação industrializada. 


Além das perdas financeiras, as consequências mais graves são possíveis danos 
corporais e até mesmo perdas de vidas humanas. O risco em termos de colapsos estruturais 
merece atenção. Nos últimos anos, têm sido recorrentes os casos de colapsos de estruturas 
devido à corrosão de armaduras. Dentre vários casos com repercussão na mídia nacional, 
pose-se citar o colapso parcial de um viaduto na cidade de Brasilia em 2018 (VIADUTO, 
2018) e a interdição do acesso à Rodovia Presidente Dutra, na cidade de São Paulo em 
2019 (PREFEITURA, 2019). 


A Figuras 1 ilustra a ação da corrosão com a ocorrência das duas situações 
concomitantemente, isto é, fissuras da camada de recobrimento do concreto acompanhadas 
de manchas corrosivas (CASCUDO, 1997). Caso o concreto esteja muito úmido, os óxidos 
serão gerados a uma velocidade constante e podem emigrar através da rede de poros, 
aparecendo na superfície sob a forma de manchas marrom-avermelhadas, mas não 
apresentando fissuras, conforme apresenta a Figura 1(a). 


Complementando a ilustração anterior, a Figura 2 apresenta a perda de seção 
na região anódica devido à dissolução do ferro. A perda de seção provoca a redução de 
aderência entre aço e concreto, a redução da capacidade estrutural da peça e externamente 
o surgimento de manchas. As tensões internas expansivas provenientes dos produtos da 
corrosão (situados na região anódica) provoca a deterioração da ferragem e o destacamento 
da camada de cobrimento, tal como apresenta as imagens da Figura 1(b-c) (ANDRADE, 
2001; LOPES et al., 2018). 


Quando se observa o estado de corrosão, pode-se constatar o surgimento de 


fissuras paralelas às armaduras; fragmentação e destacamento do cobrimento e, no 
estado avançado, o lascamento do concreto. Logo, quando há indicações externas do 
processo corrosivo, normalmente parte da armadura já se encontra comprometida, pois, a 
manifestação é tão somente o afloramento deste. 





(a) (b) 


Figura 1: Efeitos da corrosão na camada de cobrimento de concreto: (a) manchas; (b) fissuras 
e rachaduras; (c) destacamento total. 


Fonte: Autoria própria (2020). 





(a) 


Figura 2: Barra de aço: (a) original; (b) perda de seção devido à corrosão. 





Fonte: Autoria própria (2020). 


Outra importante característica deste cenário é o fato de que, em sua maior parte, 
as inspeções para avaliar o grau de corrosão são realizadas visualmente por especialistas 
humanos. Tais avaliações demandam altos níveis de experiência por ser um fator decisivo 
para uma correta avaliação do estado de deterioração da estrutura. Dentre as possíveis 
ferramentas a serem empregadas, tem-se filmadoras, máquinas fotográficas, lupas e 
binóculos (ABNT, 2014). 


Diante do exposto, identifica-se a necessidade de estudos pertinentes ao melhor 
entendimento dos processos de degradação de estruturas devido a corrosão com vistas a 
edificar estruturas mais seguras e duráveis. Assim, este artigo busca auxiliar o processo 
de inspeção por meio da aplicação de visão computacional para identificar níveis de 
deterioração em barras de aço. Com isso, busca-se reduzir fatores inerentes ao ser humano 
que influenciam nas inspeções realizadas para avaliar o grau de corrosão em barras de aço 
em estruturas de concreto armado. Tal influência compreende questões como subjetividade 
do especialista humano e características do processo (repetitivo, monótono e demorado), 
além de requerer alto grau de concentração. Este conjunto de exigências sobrecarrega o 
profissional que realiza a inspeção e o leva a possíveis distrações e baixas taxas de acerto 
(CONNERS et al., 1997; PHAM; ALCOCK, 1997; RADOVAN et al., 2001). 


21 MATERIAIS E MÉTODOS 


Sistemas computacionais desenvolvidos com base em técnicas de reconhecimento 
de padrões geralmente apresentam as seguintes etapas: aquisição, pré-processamento, 
segmentação, extração de características e classificação. Cada etapa constitui um diferente 
contexto, possui diferentes níveis de complexidade e envolve conhecimentos específicos e 
próprios, além daqueles inerentes ao domínio da aplicação. 


Diante da importância do tema, diversos trabalhos têm sido desenvolvidos, inclusive 
a partir da base de imagens aqui empregada. Tal fato implica na execução das etapas já 
apresentadas utilizando diferentes ferramentais, mas ainda considerando o foco de cada 
uma delas em sua essência. 


A construção da base de imagens envolveu 24 (vinte e quatro) amostras, sendo 
que 6 (seis) delas formando o grupo de controle (referências isentas de corrosão) e outros 
três grupos de seis barras foram submetidos a processos de aceleração de corrosão por 
períodos de 24, 48 e 72 horas (Figura 3). 
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Figura 3: Processo de construção da base de imagens: (a ) barra original; ( b) corpo de 
concreto envolvendo a barra original; ( c ) corpo de concreto envolvendo a barra após 28 
dias de cura do concreto; ( d-f ) corpos de concreto envolvendo a barra após o processo de 
aceleração (respectivamente 24, 48 e 72 horas); (g-i) barras retiradas dos corpos de concreto 
após o processo de aceleração (respectivamente 24, 48 e 72 horas). 


Fonte: Autoria própria (2020). 


Para a construção da base de imagens foram utilizadas barras de aço da marca 
Gerdau com 12,5 mm de diâmetro. Cada amostra é caracterizada por um comprimento 
com aproximadamente 25 cm, sendo que todas foram obtidas de barras pertencentes a um 
mesmo lote de fabricação, tal como ilustrado na Figura 3(a). O segundo passo compreendeu 
o recobrimento de 2 cm dos corpos de prova de aço com concreto para simular o contexto 
real das estruturas nas edificações, conforme apresentado na Figura 3(b). O traço de 
concreto utilizado tinha a proporção 1 : 1,49 : 2,77 : 0,65 (Cimento : Areia : Brita: Água). 
Cada amostra tinha 10 cm de suas extremidades cobertas por fita isolante para garantir que 
a corrosão ocorresse apenas na parte central da amostra. Um fio elétrico foi conectado às 
barras com o objetivo de permitir o ensaio de aceleração da corrosão. Depois, a amostra 
foi inserida em um cano de PVC com diâmetro nominal de 50 mm e 25 cm de comprimento. 


Este cano de PVC foi preenchido com concreto de tal forma que a cobertura se mantivesse 
homogênea em termos de espessura da camada de cobrimento (2 cm). As amostras 
permaneceram sob cura por 28 dias para o processo de hidratação do cimento, Figura 
3(c). Seguiu-se com o processo de aceleração de corrosão das amostras com os corpos de 
concreto parcialmente imersos em um tanque de água com 3,5% (concentração próxima a 
água do mar) de cloreto de sódio (NaCl) e submetidos ao ensaio de aceleração da corrosão 
através da condução de eletricidade. Os três grupos de corpos de concreto foram mantidos 
por três diferentes períodos de tempo no tanque, sendo estes 24, 48 e 72 horas, Figura 
3(d-f), o que gerou diferentes níveis de corrosão, Figura 3(gri). 


Depois de cessado o processo de aceleração de corrosão, os corpos de concreto, 
bem como as barras internas depois de extraídas e limpas com solução ácida, foram 
submetidos a uma coleta de imagens para compor a base. Para cada amostra de barra, 
foram capturadas 5 (cinco) imagens abrangendo a diferentes perspectivas da superfície 
dos corpos de concreto e também da barra depois de extraída, num total de 120 imagens 
para cada caso. No presente estudo foram consideradas as imagens relativas aos corpos 
de concreto, Figura 3(d-f). 


A Figura 4 ilustra as etapas de pré-processamento e segmentação, sendo que 
a primeira aplica operações para realçar as características importantes no processo de 
diferenciação das classes existentes no problema. Nesta etapa, utilizou-se principalmente 
da biblioteca OpenCV para converter a base toda em escala de cinza, conforme ilustração 
das imagens da Figura 4(a-b). 


A segmentação é ilustrada pelo par de imagens da Figura 4(b-c). Esta compreende 
a próxima etapa do processo e busca separar apenas a região de interesse da imagem 
original e da qual depende o sucesso de um modelo de identificação ou de classificação. 
Nesta etapa, buscou-se por uma imagem que estivesse toda formada pela área de 
interesse, tal como ilustrado na Figura 4(c). 


Para a segmentação, foram utilizados a técnica de limiarização para descatar 
os objetos na imagem, o algoritmo de detecção de bordas Canny (BUENO, 2020) para 
ressaltar os contornos das bordas destes objetos e a função findContours da biblioteca 
OpenCV para identificar os pontos que pertenciam a tais contornos. Esta função retorna 
os pontos que formam os contornos de todos os possíveis objetos presentes na imagem, 
os quais são caracterizados por qualquer região com contraste em relação a seu entorno. 
A partir da identificação dos possíveis objetos, os pontos pertencentes ao maior contorno 
com a definição do traço de concreto foram selecionados. Ao final, recortou-se e salvou-se 
a área de interesse em uma nova imagem, tal como ilustrado na Figura 4(c). 


A etapa de Extração de Características busca representar a imagem por meio de um 
vetor numérico de medidas. Nesta etapa foram utilizados os descritores GLCM (Gray Level 
Co-occurrence Matrix), LBP (Local Binary Pattern), SURF (Speed-Up Robust Feature) e 
TAS (Threshold Adjacency Statistics), os quais são descritos nas seções seguintes. 

Na fase de classificação foram utilizados três algoritmos: kNN (k-Nearest Neighboun), 
SVC (Support Vector Classification, baseada na libsvm) e Linear SVC (que é baseada 
na liblinear). Para os algoritmos baseados em Máquinas de Vetores de Suporte (Support 
Vector Machine - SVM), isto é, SVC e Linear SVC, os melhores resultados foram obtidos 


pela execução de uma busca gulosa para encontrar os melhores parâmetros C e y, numa 
tentativa de identificar o melhor arranjo e otimizar as taxas finais de reconhecimento. 
A normalização dos dados considerou a escala linear de cada atributo dos vetores de 
características no intervalo [-1,+1]. 





(b) 
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Figura 4: Processo de reconhecimento de padrões: ( a ) corpo de concreto após o processo de 
aceleração; ( b ) pré-processamento com conversão para níveis de cinza; ( c ) segmentação. 


Fonte: Autoria própria (2020). 


Para a definição dos conjuntos de treinamento e teste, dividiu-se a base de imagens 
em 3 partes (folds), os quais mantinham a representatividade das classes pertencentes ao 
problema em questão. Foram realizadas 3 execuções, sendo que em cada execução uma 
parte era usada como conjunto de teste e os outros dois eram utilizados como conjunto de 
treinamento. Os resultados finais são expressos pela média e desvio padrão das taxas de 
classificações corretas das três execuções. 


Neste trabalho foram consideradas as métricas acurácia, precisão, rechamada e 
F1 score. Cada uma dessas métricas foi calculada para cada fold. A partir destes valores 
individuais foram calculadas a média e o desvio padrão (dp), sendo que o desvio padrão é 
apresentado apenas para a acurácia. A acurácia (Acc) é a taxa obtida pela razão entre as 
predições corretas totais e o número de amostras. A precisão (Pr) é arazão entre as instâncias 
previstas corretamente e a quantidade total de predições da classe correspondente. A 
rechamada (Re) se trata da razão entre as instâncias previstas corretamente e o total de 
instâncias testadas da classe correspondente. F1 score (F1) é a média harmônica entre a 


E, h precisão + rechamada 
precisão e a rechamada: 1 = 2 + ão + rechamada: 


2.1 Matriz de Coocorrência de Níveis de Cinza 

Matriz de Coocorrência de Níveis de Cinza (Gray Level Co-occurrence Matrix - 
GLCM) é um método estatístico proposto por Haralick e se caracteriza como um dos mais 
conhecidos métodos que exploram repetições de ocorrências de padrões. Tais padrões são 
caracterizados pela dependência entre os níveis de cinza dos pixels das imagens e por sua 


distribuição espacial. As repetições dos padrões provêem medidas quanto a propriedades 
como rugosidade, suavidade e regularidade sob diferentes perspectivas com a variação 
dos parâmetros direção e distância (HARALICK, 1979). 


Formalmente, Haralick fundamenta GLCM pela seguinte definição: dada uma 
imagem / com dimensões N, X N., tal que L =[1,N]JeL,= [1,N] representam os possíveis 
valores para linhas e colunas, respectivamente; e L = [1,N,] o conjunto de N, níveis de cinza 
quantizados de /. A imagem | pode ser representada como uma função que associa algum 
nível de cinza de G a uma célula ou par de coordenadas de L xL. Ouseja, |:L xL = G 
(HARALICK, 1979; PEDRINI; SCHWARTZ, 2008). 


A partir disto, Haralick define o uso de uma matriz N, x N, para representar a 
frequência P, tal que um pixel pc possua nível de cinza ne e um pixel vizinho a pe (pj - a uma 
distância d e um ângulo a ) possua nível de cinza nj. Embora Haralick tenha estabelecido 
ângulos com intervalos de 45 graus, os cálculos podem assumir outros ângulos (HARALICK, 
1979; TOU, 2007). 


Seguindo as definições anteriores, as GLCM da Figura 5(b) foi gerada para a 
imagem da Figura 5(a) com N = 5, distância d = 1 e direção O grau, respectivamente. 
Dentre as possíveis medidas extraídas de GLCM, tem-se as apresentadas por Haralick: 
Segundo Momento Angular, Contraste (Soma do Quadrado da Variância), Correlação, 
Variância (Soma dos Quadrados), Momento de Diferença Inverso (Homogeneidade), 
Soma da Média, Soma da Variância, Soma da Entropia, Entropia, Diferença da Variância, 
Diferença da Entropia, Informação de Medidas de Correlação 1, Informação de Medidas de 
Correlação 2 e Coeficiente de Correlação Máxima (HARALICK, 1979). 


Embora a proposta inicial tenha definido 14 elementos, diferentes trabalhos 
consideram diferentes subconjuntos destes e afirmam haver correlações ou redundâncias 
entre as informações provenientes de alguns deles. Assim, aqui empregou-se apenas 
seis das características propostas por Haralick (1979): energia, contraste, entropia, 
homogeneidade, probabilidade máxima e momento de terceira ordem. Tais características 
têm suas equações apresentadas a seguir. N, é o número de diferentes níveis de cinza 
da imagem; « e j são os níveis de cinza e servem como índices da GLCM; e P(ij) é a 
probabilidade de co-ocorrência do par (i,j) de níveis de cinza. 


2.2 Padrão Binário Local 


Classificado como um método estrutural, o Padrão Binário Local (Local Binary 
Pattern - LBP) foi introduzido, em 1996, como uma medida complementar para contraste 
local de uma imagem em níveis de cinza, sendo definido como invariante a mudanças 
monotônicas dos níveis de cinza. Em sua versão original, LBP considera uma vizinhança-8 
e distância um para o pixel central (x,.y,) de uma máscara com dimensões 3x3, Figura 6(a) 
(MÃENPAÃÃ et. al., 2000). 


Cada ponto da imagem é tomado como sendo o ponto ceniral (x,,y.), cujo valor é 
utilizado como limiar na comparação com o conteúdo de cada um de seus vizinhos (x,y). 
Desta comparação gera-se uma cadeia de zeros e uns Figura 6(b), pois cada vizinho assume 
o valor um se seu conteúdo for maior que o do ponto central (x,,y,) e zero caso contrário. A 
organização dessa cadeia considera a posição relativa / de cada um dos vizinhos, iniciando 


do canto superior-esquerdo com valor zero e circundando o ponto central no sentido anti- 
horário, Figura 6(c). Ao ser tomada como uma representação em base dois e convertida 
para a base dez, tem-se o padrão que representa a região sobreposta pela máscara, Figura 
6(d-e) (MÃENPÁÃÃ et. al., 2000). 





(a) Imagem 1. (b) GLCM 0º para /. 
Figura 5: Geração de GLCMs. 
Fonte: Martins (2014). 
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Após gerar os padrões para todos os pontos da imagem, as frequências destes 
padrões são contabilizadas por meio de um histograma com um total de 2º padrões para 
P vizinhos. A consideração de P = 8, Figura 6(a), gera um total de 256 padrões de transição 
de bits, Figura 6(b). Dentre estes padrões, apenas 58 atendem a definição de uniformidade, 


isto é, a ocorrência de, no máximo, duas transições do valor zero para um e vice-versa. 
Todos os demais padrões são contabilizados juntos, levando a um total de 59 valores para 
o descritor denominado LBP uniforme (LBP'2), 





LBP=1+2+4+16+128= 151 
(e) 


Figura 6: Cálculo do padrão LBP. 
Fonte: Martins (2014, p. 34). 


2.3 Características Robustas Aceleradas 


Proposto por Bay et al. (2006), Características Robustas Aceleradas (Speed-Up 
Robust Feature - SURF) apresenta semelhanças ao SIFT e permite detecção e descrição 
de regiões de interesse. Porém, este reduz a alta dimensionalidade e custo computacional 
do descritor SIFT, pois possui a metade do número de elementos do SIFT e é baseado em 
matrizes Hessianas e no conceito de imagens integrais. O uso de determinantes de matrizes 
Hessianas garante robustez quanto a estruturas mal localizadas e alongadas, maior 
estabilidade se comparados a detectores de cantos de Harris, além de boa performance 
em termos de tempo computacional e taxas de acerto (BAY et al., 2006; BAY et al., 2008). 


O uso das imagens integrais reduz drasticamente o tempo de computação devido 
aos filtros de convolução baseados em caixas. Por definição, cada elemento (x,y) de uma 
imagem integral representa a soma de todos os pixels da imagem original contidos na 
região retangular situada entre a origem e suas coordenadas (x, y). Diante disto, conforme 
ilustrado na Figura 7(a), o cálculo da soma dos pixels contidos em uma região qualquer 
requer apenas três operações de adição. Consequentemente, o tempo necessário para 
aplicar qualquer filtro à imagem permanece constante (independente de suas dimensões), 
todos os filtros são aplicados na imagem integral sem a necessidade de criar novas 
imagens por meio de interpolações, os componentes de alta frequência são preservados 
e poderão ser recuperados independentemente da escala corrente (BAY et al., 2006; BAY 
et al., 2008). 


Após identificar a região de interesse e sua orientação, conforme Figura 7(b), o 
próximo passo consiste em calcular os valores do descritor. Para isso, conforme Figura 
7(c), define-se uma região quadrada (8x8) centrada no ponto de interesse e alinhada com a 
orientação previamente identificada. Para cada um dos 64 elementos, obtém-se a resposta 
da wavelet de Haar nas direções x e y, denominadas respectivamente d, e d, Para cada 


sub-região 2x2, d,, d, Idl e Idj são acumuladas separadamente, gerando 16 conjuntos 
com as quatro características (2d,, 2d, 2 Idle> Idj ), num total de 64 elementos. Ao 
final, como SIFT, geralmente são detectados centenas ou até milhares de pontos para 
a imagem. Todos estes pontos são invariantes à translação, escala e rotação, além de 
ser parcialmente invariante a mudanças de iluminação e projeções 3D e potencialmente 
candidatos a compor o conjunto de características que descreve a imagem (BAY et al., 
2006; BAY et al., 2008). 
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Figura 7: Processo de cálculo para o descritor SURF: (a) imagem integral; (b) janela deslizante 
de orientação com ângulo n/3; (c) aplicação da máscara 8x8 alinhada com a orientação 
identificada e obtenção dos gradientes para cada direção na região sobreposta da imagem 
(esquerda), seguido do acúmulo dos gradientes para cada subregião (direira). 


Fonte: Autoria própria (2020). 


Os autores também apresentaram a variante SURF-128, a qual duplica o número de 
características que compõem o vetor final. Esta variante acumula d, e Id | separadamente 
para d, <0e d, > 0, sendo o mesmo considerado para d, e Idj de acordo com o sinal de d,. 
Embora esta variação garanta descritores mais discriminantes, a maior dimensionalidade 
do vetor de características exige maiores recursos computacionais (BAY et al., 2006; BAY 
et al., 2008). 


Seguindo o padrão de representação SURF, foram gerados vetores com 64 elementos 
para cada ponto identificado em cada imagem. Posteriormente, estes foram sumarizados por 
meio dos vetores com as representações dos quatro momentos estatísticos, gerando novos 
vetores com 64 elementos. Maiores detalhes quanto ao descritor SURF e a metodologia 
adotada para ele podem ser obtidos em Martins (2014). 


2.4 Estatísticas de Adjacência de Limiar 


Proposto por Hamilton et al. (2007), Estatísticas de Adjacência de Limiar (Threshold 
Adjacency Statistics - TAS) binariza a imagem considerando um subintervalo de intensidades 
a ser definido no intervalo [0, 255]. Para isso, TAS calcula a intensidade média u dos pixels 
da imagem com intensidades de cinza acima de 30, sendo que pixels com intensidades 
abaixo de 30 são considerados como pertencentes ao fundo da imagem. Após o cálculo de 
H, TAS binariza a imagem de tal forma que, os pixels com intensidades no intervalo [4 - 30, 
4 + 30] são convertidos para branco e os demais para preto, tal como ilustra as imagens 
da Figura 8(a-b). 

A partir da imagem binarizada na Figura 8(b), são calculadas nove estatísticas 
com base nos padrões apresentados na Figura 8(c). Para cada pixel branco, conta-se a 
quantidade de pixels brancos adjacentes (vizinhança-8). O primeiro padrão compreende a 
quantidade de pixels brancos sem vizinhos brancos; o segundo é definido pela quantidade 
de pixels brancos com apenas um vizinho branco; até chegar ao nono padrão que considera 
a quantidade de pixels brancos com todos os oito vizinhos também brancos. 


As nove estatísticas são obtidas pela normalização das contagens anteriores 
com sua divisão pelo número total de pixels brancos na imagem binarizada. Dois outros 
conjuntos de TAS também são calculados como descrito previamente, mas para imagens 
binárias de limiar com pixels com intensidades nos intervalos [u - 30, 255] e [W, 255], 
culminando num total de 27 elementos no vetor de características finais. 
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Figura 8: TAS: (a) imagem original; (b) imagem binarizada; (c) padrões utilizados para o cálculo 
dos descritores. 
Fonte: Hamilton et aí. (2007, p. 4). 


Neste trabalho, foi utilizada a implementação disponibilizada por COELHO (2013), 
por meio da biblioteca Mahotas, e imagens coloridas RGB. Diante disto, o conjunto final de 
elementos do vetor de características contém 162 atributos, pois são extraídos 27 atributos 
para a imagem binarizada e outros 27 atributos para sua inversa, para cada um dos três 
canais de cores. 


31 RESULTADOS E DISCUSSÃO 


O Quadro 1 apresenta um resumo dos resultados obtidos, os quais serão discutidos 
considerando a acurácia média dos modelos como a métrica para comparação de 
desempenho dos classificadores construídos. Ao se analisar os algoritmos de aprendizagem 
de máquinas, exceto quando combinado com o GLCM, kNN obteve os piores resultados. 
Já tomando a perspectiva dos descritores, de forma geral, SURF apresentou o pior 
desempenho e TAS alcançou acurácias superiores aos demais. 

















Modelo Acc dp Pr Re F1 
Descritor Alg. AM 

kNN 58,3 5,4 59,5 54,7 52,7 

GLCM LinearSVC 58,9 15,0 60,9 59,9 58,5 
SVC 47,8 3,1 54,1 49,7 44,5 

kNN 48,9 10,3 51,8 50,6 48,0 

LBP LinearSVC 55,6 1,6 55,6 57,4 58,6 
SVC 52,2 11,0 583,2 54,1 52,1 

kNN 40,0 72 51,6 42,7 40,2 

SURF LinearSVC 41,2 8,3 40,1 41,6 39,0 
SVC 44,5 4,2 48,0 44,9 43,5 

kNN 54,4 12,9 55,4 55,2 51,5 

TAS LinearSVC 68,9 8,7 71,4 70,8 69,1 
SVC 73,3 52 76,5 75,0 73,4 





Acc - Acurácia, Pr - Precisão, Re - Rechamada, e F1 - F1 score 
Quadro 1: Resultados obtidos. 


Fonte: Autoria própria (2020). 


Acombinação do descritor TAS e do algoritmo de classificação SVC obteve o melhor 
resultado geral, alcançando 73,3%, 76,5%, 75,0% e 73,4% para as métricas acurácia, 
precisão, recnhamada e Fi score, respectivamente. Os resultados obtidos se mostraram 
bem interessantes, principalmente para o problema em questão, o qual envolve segurança 
e vidas humanas, além dos altos valores monetários envolvidos na construção e também 
manutenção das edificações. 


41 CONSIDERAÇÕES FINAIS 


Este trabalho avaliou a aplicação de classificadores construídos a partir da 
combinação de diferentes descritores e algoritmos de aprendizagem de máquina. Nesta 
abordagem, o problema de identificação do nível de corrosão de barras de aço por meio de 
imagens do recobrimento de concreto, sendo que os melhores resultados foram alcançados 
pela combinação do descritor TAS e do algoritmo SVC, com acurácia de 73,3% (dp = 7,2). 


Na sequência, serão avaliados novas alternativas para descritores, classificadores, 
estratégias de validação e também a seleção e combinação de modelos, com o intuito de 


melhorar ainda mais os resultados. Possíveis alternativas foram apresentadas por Martins, 
Oliveira e Sabourin (2012), Martins (2014), Martins et al. (2015) e Spanhol (2018). 
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RESUMO: Especialistas humanos têm 
sido amplamente auxiliados por sistemas 
computacionais que trabalhem com 


reconhecimento de padrões. Tal ajuda é muito 
importante em processos caracterizados como 
repetitivos, monótonos e demorados, que 
demandam altos níveis de experiência e cujos 
resultados estão sujeitos a fatores físicos e 
subjetivos. Este artigo apresenta uma proposta 
para identificar diferentes níveis de deterioração 
em barras de aço por meio de imagens e 
ferramentais amplamente utilizados na área de 
aprendizagem de máquina. As melhores taxas de 
acerto compreendem 79,2% usando o descritor 
LBP e algoritmo de aprendizagem de máquinas 
SVM. 

PALAVRAS-CHAVE: Construção civil. 
civil. Segurança pública. Automação. 


Defesa 


COMPUTER-VISION APPLIED FOR 
IDENTIFICATION OF DETERIORATION 
LEVELS IN STEEL BARS BY USING 
IMAGES 


ABSTRACT: Human specialists have been 
widely assisted by computer systems that apply 
pattern recognition. They are helpful for problems 
in which there are repetitive, monotonous and 
time-consuming tasks, demand high levels of 
experience, and their results can be influenced 
by physical and subjective aspects. This paper 
presents a proposal to identify different levels of 
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deterioration in steel bars using images and a widely set of tools used in the machine learning 
area. The best achieved recognition rates are 79.2% by using the LBP descriptor and SVM 
machine learning algorithm. 

KEYWORDS: Construction. Civil defense. Public security. Automation. 


11 INTRODUÇÃO 


Acorrosão das armaduras é um dos principais problemas relacionados a degradação 
de estruturas de concreto armado no mundo, chegando a envolver até 50% dos recursos 
financeiros investidos em construção civil para a reabilitação de estruturas degradadas 
(MEHTA; MONTEIRO, 2008). Segundo Cunha, Helene e Lourenço. (2013), tal problema 
consome direta ou indiretamente uma parcela significativa do produto interno bruto (PIB) 
de uma nação industrializada (algo em torno de 3% a 4%). 


Além dos custos envolvidos devido a degradação destas estruturas, o risco em 
termos de colapsos estruturais merece atenção, pois podem provocar danos corporais e 
mortes. Nos últimos anos, têm sido recorrentes os casos de colapsos de estruturas devido 
à corrosão de armaduras. Para citar dois casos de grande repercussão na mídia nacional, 
destacam-se o colapso parcial de um viaduto na cidade de Brasilia em 2018 (VIADUTO, 
2018) e a interdição do acesso à Rodovia Presidente Dutra, na cidade de São Paulo em 
2019 (PREFEITURA, 2019). 


Entende-se que são necessários estudos para que se alcance um melhor 
entendimento dos processos de degradação de estruturas devido à corrosão, tal que se 
consiga edificar estruturas mais seguras e duráveis. Muitos dos problemas relacionados à 
corrosão das armaduras têm relação com as características do concreto. Este propicia uma 
proteção física por meio da separação do aço e do meio externo, bem como uma proteção 
química decorrente do elevado pH da solução presente nos poros do concreto. Ainda 
quanto à proteção química, ocorre a formação de uma película passivadora envolvendo o 
aço no interior do concreto (FIGUEIREDO; MEIRA, 2012). 


Basicamente, a corrosão é caracterizada pela deterioração de um metal (ou liga) 
a partir do contato de sua superfície com o meio no qual este esteja inserido. O processo 
envolve reações de oxidação e de redução (redox) que convertem o metal ou componente 
metálico em óxidos ou hidróxidos expansivos (SILVA; PEREIRA; CODARO, 2015). Dentre 
os fatores que influenciam o processo de corrosão do aço imerso no concreto estão: o 
coeficiente de difusão do concreto, a relação água/cimento, a espessura de cobrimento, a 
presença e a quantidade de adições, a umidade relativa, o pH do concreto e a temperatura 
de exposição (ANDRADE, 2001; GU; BEAUDOIN, 1998). 


As Figuras 1 e 2 ilustram a ação da corrosão, a partir da qual se tem a perda de 
seção na região anódica devido à dissolução do ferro (Figura 1). Comumente, identifica-se 
a ocorrência das duas situações concomitantemente (Figura 2): fissuras acompanhadas de 
manchas corrosivas (CASCUDO, 1997). A perda de seção provoca a redução de aderência 
entre aço e concreto, a redução da capacidade estrutural da peça e externamente o 
surgimento de manchas. Caso o concreto esteja muito úmido, os óxidos serão gerados 
a uma velocidade constante e podem emigrar através da rede de poros, aparecendo na 


superfície sob a forma de manchas marrom-avermelhadas, mas não apresentando fissuras, 
Figura 2(a). As tensões internas expansivas provenientes dos produtos da corrosão 
(situados na região anódica) provoca a deterioração da ferragem e o destacamento da 
camada de cobrimento, tal como ilustra as imagens da Figura 2(b-c) (ANDRADE, 2001; 
LOPES et al., 2018). 
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Figura 1: Barra de aço: (a) original; (b) perda de seção devido à corrosão. 





Fonte: Autoria própria (2020). 
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Figura 2: Efeitos da corrosão na camada de cobrimento de concreto: (a) manchas; (b) fissuras 
e rachaduras; (c) destacamento total. 
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Fonte: Autoria própria (2020). 


Ao observar o estado de corrosão, pode-se identificar fissuras paralelas às armaduras; 
fragmentação e destacamento do cobrimento e, no estado avançado, o lascamento do 
concreto. A presença de indicações externas do processo corrosivo normalmente determina 
que parte da armadura já se encontra comprometida (ABNT, 2014). Além disso, a maior 
parte das inspeções são realizadas visualmente por especialistas humanos e demandam 
altos níveis de experiência (ABNT, 2014). 


A partir do cenário apresentado, este artigo realizou uma investigação quanto à 
aplicação de ferramentas computacionais para identificar níveis de deterioração em barras 
de aço por meio de imagens. A principal contribuição do trabalho consiste em apresentar 
uma alternativa para aliviar a sobrecarrega do profissional que realiza a inspeção e que 
está sujeito a possíveis distrações e baixas taxas de acerto. Tal cenário decorre de fatores 
fatores inerentes ao ser humano, tal como a subjetividade e as características do processo 
(repetitivo, monótono e demorado), além de requerer alto grau de concentração (CONNERS 
et al., 1997; PHAM; ALCOCK, 1997; RADOVAN et al., 2001). 


21 MATERIAIS E MÉTODOS 


Sistemas computacionais voltados para a área de reconhecimento de padrões 
contemplam as seguintes etapas: aquisição, pré-processamento, segmentação, extração 
de características e classificação. Cada etapa constitui um diferente contexto, possui 


diferentes níveis de complexidade e envolve conhecimentos específicos e próprios, além 
daqueles inerentes ao domínio da aplicação. 


Diante da importância do tema, diferentes trabalhos têm sido desenvolvidos, 
inclusive a partir da base de imagens aqui utilizada. Tal fato implica na execução das etapas 
já apresentadas utilizando diferentes ferramentais, mas ainda considerando o foco de cada 
uma delas em sua essência. 


A construção da base de imagens envolveu 24 (vinte e quatro) amostras, sendo 
que 6 (seis) delas formando o grupo de controle (referências isentas de corrosão) e outros 
três grupos de seis barras foram submetidos a processos de aceleração de corrosão por 
períodos de 24, 48 e 72 horas (Figura 3). 
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Figura 3: Processo de construção da base de imagens: (a ) barra original; ( b ) corpo de 
concreto envolvendo a barra original; ( c ) corpo de concreto envolvendo a barra após 28 
dias de cura do concreto; ( d-f ) corpos de concreto envolvendo a barra após o processo de 
aceleração (respectivamente 24, 48 e 72 horas); (g-i) barras retiradas dos corpos de concreto 
após o processo de aceleração (respectivamente 24, 48 e 72 horas). 


Fonte: Autoria própria (2020). 


Para a construção da base de imagens foram utilizadas barras de aço da marca 
Gerdau com 12,5 mm de diâmetro. Cada amostra é caracterizada por um comprimento 
com aproximadamente 25 cm, sendo que todas foram obtidas de barras pertencentes a um 
mesmo lote de fabricação, tal como ilustrado na Figura 3(a). O segundo passo compreendeu 
o recobrimento de 2 cm dos corpos de prova de aço com concreto para simular o contexto 
real das estruturas nas edificações, conforme apresentado na Figura 3(b). O traço de 
concreto utilizado tinha a proporção 1 : 1,49: 2,77 : 0,65 (Cimento : Areia : Brita: Água). 
Cada amostra tinha 10 cm de suas extremidades cobertas por fita isolante para garantir que 
a corrosão ocorresse apenas na parte central da amostra. Um fio elétrico foi conectado às 
barras com o objetivo de permitir o ensaio de aceleração da corrosão. Depois, a amostra 
foi inserida em um cano de PVC com diâmetro nominal de 50 mm e 25 cm de comprimento. 
Este cano de PVC foi preenchido com concreto de tal forma que a cobertura se mantivesse 
homogênea em termos de espessura da camada de cobrimento (2 cm). As amostras 
permaneceram sob cura por 28 dias para o processo de hidratação do cimento, Figura 
3(c). Seguiu-se com o processo de aceleração de corrosão das amostras com os corpos de 
concreto parcialmente imersos em um tanque de água com 3,5% (concentração próxima a 
água do mar) de cloreto de sódio (NaCl) e submetidos ao ensaio de aceleração da corrosão 


através da condução de eletricidade. Os três grupos de corpos de concreto foram mantidos 
por três diferentes períodos de tempo no tanque, sendo estes 24, 48 e 72 horas, Figura 
3(d-f), o que gerou diferentes níveis de corrosão, Figura 3(gri). 


Depois de cessado o processo de aceleração de corrosão, os corpos de concreto, 
bem como as barras internas depois de extraídas e limpas com solução ácida, foram 
submetidos a uma coleta de imagens para compor a base. Para cada amostra de barra, 
foram capturadas 5 (cinco) imagens abrangendo a diferentes perspectivas da superfície 
dos corpos de concreto e também da barra depois de extraída, num total de 120 imagens 
para cada caso. No presente estudo foram consideradas as imagens relativas às barras, 
Figura 3(g-i). 

A Figura 4 ilustra os resultados das etapas de pré-processamento e segmentação, 
sendo que a primeira aplica operações para realçar as características importantes no 
processo de diferenciação das classes existentes no problema. Nesta etapa, utilizou-se 
principalmente da biblioteca OpenCV para converter a base toda em escala de cinza, 
conforme ilustração das imagens da Figura 4(a-b). 


A segmentação é ilustrada pelo par de imagens da Figura 4(c-d). Esta compreende 
a próxima etapa do processo e busca separar apenas a região de interesse da imagem 
original e da qual depende o sucesso de um modelo de identificação ou de classificação. 
Nesta etapa, buscou-se por uma imagem que estivesse toda formada pela área de 
interesse, tal como ilustrado nas imagens da Figura 4(c-d). 


TES ERES e ESSE ESSES 
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Figura 4: Processo de reconhecimento de padrões: ( a ) barra após o processo de aceleração; 
(b) pré-processamento com conversão para níveis de cinza; ( c-d ) segmentação. 


Fonte: Autoria própria (2020). 


Para a segmentação, foram utilizados a técnica de limiarização para descatar 
os objetos na imagem, o algoritmo de detecção de bordas Canny (BUENO, 2020) para 
ressaltar os contornos das bordas destes objetos e a função findContours da biblioteca 
OpenCV para identificar os pontos que pertenciam a tais contornos. Esta função retorna 
os pontos que formam os contornos de todos os possíveis objetos presentes na imagem, 
os quais são caracterizados por qualquer região com contraste em relação a seu entorno. 
A partir da identificação dos possíveis objetos, os pontos pertencentes ao maior contorno 
com a definição da barra de aço foram selecionados. Ao final, recortou-se e salvou-se a 
área de interesse em uma nova imagem, tal como ilustrado nas imagens da Figura 4(c-d). 


A etapa de Extração de Características busca representar a imagem por meio de um 
vetor numérico de medidas. Nesta etapa foram utilizados os descritores LBP (Local Binary 
Pattern) e SURF (Speed-Up Robust Feature), os quais são descritos nas seções seguintes. 


Nesta etapa de classificação foi utilizado o algoritmo Máquinas de Vetores de Suporte 
(Support Vector Machine - SVM), por meio da implementação LibSVM 3.2 disponibilizada 
no endereço eletrônico http://www.csie.ntu.edu.tw/-cjlinlibsvm/. Dentre as possibilidades 
disponibilizadas pela biblioteca, os melhores resultados foram obtidos com a função de 
base radial Gaussiana e uma busca gulosa para encontrar os melhores parâmetros C e y, 
numa tentativa de identificar o melhor arranjo e otimizar as taxas finais de reconhecimento. 
A normalização dos dados considerou a escala linear de cada atributo dos vetores de 
características no intervalo [-1,+1]. 


Para a definição dos conjuntos de treinamento e teste, dividiu-se a base de imagens 
em 3 partes (folds), os quais mantinham a representatividade das classes pertencentes ao 
problema em questão. Foram realizadas 3 execuções, sendo que em cada execução uma 
parte era usada como conjunto de teste e os outros dois eram utilizados como conjunto de 
treinamento. Os resultados finais são expressos pela média e desvio padrão das taxas de 
classificações corretas das três execuções. 


Neste trabalho foi considerada a métrica acurácia, caracterizada pela razão entre as 
predições corretas totais e o número de amostras. A métrica foi calculada para cada fold. A 
partir destes valores individuais foram calculadas a média e o desvio padrão (dp). 


2.1 Padrão Binário Local 


Classificado como um método estrutural, o Padrão Binário Local (Local Binary 
Pattern - LBP) foi introduzido, em 1996, como uma medida complementar para contraste 
local de uma imagem em níveis de cinza, sendo definido como invariante a mudanças 
monotônicas dos níveis de cinza. Em sua versão original, LBP considera uma vizinhança-8 
e distância um para o pixel central (x,,y.) de uma máscara com dimensões 3x3, tal como 
ilustrado na Figura 5(a) (MÃENPAÃ et. al., 2000). 





LBP=1+2+4+16+128= 151 
(e) 


Figura 5: Cálculo do padrão LBP. 


Fonte: Martins (2014, p. 34). 


Cada ponto da imagem é tomado como sendo o ponto central (x,,y.), cujo valor é 
utilizado como limiar na comparação com o conteúdo de cada um de seus vizinhos (x,y). 
Desta comparação gera-se uma cadeia de zeros e uns, Figura 5(b), pois cada vizinho 
assume o valor um se seu conteúdo for maior que o do ponto central (x,,y.) e zero caso 


contrário. A organização dessa cadeia considera a posição relativa j de cada um dos 
vizinhos, iniciando do canto superior-esquerdo com valor zero e circundando o ponto central 
no sentido anti-horário (Figura 5(c)). Ao ser tomada como uma representação em base dois 
e convertida para a base dez, tem-se o padrão que representa a região sobreposta pela 
máscara, Figura 5(d-e) (MÃENPAÃÃ et. al., 2000). 


Após gerar os padrões para todos os pontos da imagem, as frequências destes 
padrões são contabilizadas por meio de um histograma com um total de 2º padrões para 
P vizinhos. A consideração de P = 8, Figura 5(a), gera um total de 256 padrões de transição 
de bits, Figura 5(b). Dentre estes padrões, apenas 58 atendem a definição de uniformidade, 
isto é, a ocorrência de, no máximo, duas transições do valor zero para um e vice-versa. 
Todos os demais padrões são contabilizados juntos, levando a um total de 59 valores para 
o descritor denominado LBP uniforme (LBP'2), 


2.2 Características Robustas Aceleradas 


Proposto por Bay et al. (2006), Características Robustas Aceleradas (Speed-Up 
Robust Feature - SURF) apresenta semelhanças ao SIFT e permite detecção e descrição 
de regiões de interesse. Porém, este reduz a alta dimensionalidade e custo computacional 
do descritor SIFT, pois possui a metade do número de elementos do SIFT e é baseado em 
matrizes Hessianas e no conceito de imagens integrais. O uso de determinantes de matrizes 
Hessianas garante robustez quanto a estruturas mal localizadas e alongadas, maior 
estabilidade se comparados a detectores de cantos de Harris, além de boa performance 
em termos de tempo computacional e taxas de acerto (BAY et al., 2006; BAY et al., 2008). 


O uso das imagens integrais reduz drasticamente o tempo de computação devido 
aos filtros de convolução baseados em caixas. Por definição, cada elemento (x,y) de uma 
imagem integral representa a soma de todos os pixels da imagem original contidos na 
região retangular situada entre a origem e suas coordenadas (x, y). Diante disto, conforme 
ilustrado na Figura 6(a), o cálculo da soma dos pixels contidos em uma região qualquer 
requer apenas três operações de adição. Consequentemente, o tempo necessário para 
aplicar qualquer filtro à imagem permanece constante (independente de suas dimensões), 
todos os filtros são aplicados na imagem integral sem a necessidade de criar novas 
imagens por meio de interpolações, os componentes de alta frequência são preservados 
e poderão ser recuperados independentemente da escala corrente (BAY et al., 2006; BAY 
et al., 2008). 


Após identificar a região de interesse e sua orientação, conforme Figura 6(b), o 
próximo passo consiste em calcular os valores do descritor. Para isso, conforme Figura 
6(c), define-se uma região quadrada (8x8) centrada no ponto de interesse e alinhada com a 
orientação previamente identificada. Para cada um dos 64 elementos, obtém-se a resposta 
da wavelet de Haar nas direções x e y, denominadas respectivamente d, e d, Para cada 
sub-região 2x2, d,, d, Idl e ld são acumuladas separadamente, gerando 16 conjuntos 
com as quatro características (2d,, 2d, 2 Idle> Id), num total de 64 elementos. Ao 
final, como SIFT, geralmente são detectados centenas ou até milhares de pontos para 
a imagem. Todos estes pontos são invariantes à translação, escala e rotação, além de 
ser parcialmente invariante a mudanças de iluminação e projeções 3D e potencialmente 
candidatos a compor o conjunto de características que descreve a imagem (BAY et al., 


2006; BAY et al., 2008). 








(b) 


Figura 6: Processo de cálculo para o descritor SURF: (a) imagem integral; (b) janela deslizante 
de orientação com ângulo n/3; (c) aplicação da máscara 8x8 alinhada com a orientação 
identificada e obtenção dos gradientes para cada direção na região sobreposta da imagem 
(esquerda), seguido do acúmulo dos gradientes para cada subregião (direira). 


Fonte: Autoria própria (2020). 


Os autores também apresentaram a variante SURF-128, a qual duplica o número de 
características que compõem o vetor final. Esta variante acumula d, e Id, separadamente 
para d, <0e d, > 0, sendo o mesmo considerado para d, e Idj de acordo com o sinal de d,. 
Embora esta variação garanta descritores mais discriminantes, a maior dimensionalidade 
do vetor de características exige maiores recursos computacionais (BAY et al., 2006; BAY 
et al., 2008). 


Seguindo o padrão de representação SURF, foram gerados vetores com 64 elementos 
para cada ponto identificado em cada imagem. Posteriormente, estes foram sumarizados por 
meio dos vetores com as representações dos quatro momentos estatísticos, gerando novos 
vetores com 64 elementos. Maiores detalhes quanto ao descritor SURF e a metodologia 
adotada para ele podem ser obtidos em Martins (2014). 


31 RESULTADOS E DISCUSSÃO 


O Quadros 1 e 2 apresentam os resultados obtidos, isto é, a média e desvio padrão 
(dp) das taxas de classificações corretas das três execuções utilizando variações dos 
descritores LBP e SURF. As taxas de classificações corretas de cada execução são obtidas 


pela razão entre as predições corretas totais e o número total de amostras. 











Versão do LBP P R Média dp 
1 69,2 4,7 
2 73,3 6,2 
riu2 
16 2 79,2 2,4 
24 3 72,5 8,2 
8 1 35,8 20,9 
8 2 67,5 12,4 
uz 
16 2 50,8 26,3 
24 3 52,5 22,5 





Quadro 1: Taxas de classificações corretas para o Descritor LBP. 


Fonte: Autoria própria (2020). 











Versão do SURF Medida Média dp 
*% Pontos 52,5 2,0 

Média 61,7 2,4 

64 Variância 70,8 1,2 
Obliquidade 47,5 15,9 

Curtose 46,7 9,4 

% Pontos 52,5 2,0 

Média 58,3 77 

128 Variância 61,7 6,6 
Obliquidade 49,2 17,8 
Curtose 34,2 13,0 





Quadro 2: Taxas de classificações corretas para o Descritor LBP. 


Fonte: Autoria própria (2020). 


Do Quadro 1 tem-se que o melhor resultado dentre as variações do descritor LBP 
foi obtido por LBPriu2, a qual alcançou 79,2% (dp = 2,4), tendo sido esta a melhor taxa de 
reconhecimento geral. Já do Quadro 2, tem-se a taxa de 70,8% (dp = 1,2) para a variante do 
SURF com 64 atributos e momento estatístico Desvio Padrão. Tais taxas de reconhecimento 
se mostram bastante interessantes diante das dificuldades que um especialista enfrenta ao 
tentar identificar visualmente o nível de corrosão nas barras, conforme ilustrado na Figura 


7, a seguir. 


41 CONSIDERAÇÕES FINAIS 


Este trabalho abordou o problema de identificação do nível de corrosão de barras 
de aço por meio de imagens, sendo que os melhores resultados foram alcançados pelo 


descritor LBPriu2, com acurácia de 79,2% (dp = 2,4). 


Na sequência, serão avaliados novas alternativas para descritores, classificadores, 
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estratégias de validação e também a seleção e combinação de modelos, com o intuito de 
melhorar ainda mais os resultados. Possíveis alternativas foram apresentadas por Martins, 
Oliveira e Sabourin (2012), Martins (2014), Martins et al. (2015) e Spanhol (2018). 





Figura 7: Exemplos de barras retiradas dos corpos de concreto após o processo de aceleração: 
ampliação das imagens da Figura 3(gri), retiradas dos corpos de concreto após o processo de 
aceleração (respectivamente 24, 48 e 72 horas). 


Fonte: Autoria própria (2020). 
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RESUMO: Neste trabalho foram realizados 
experimentos com a base de imagens BreakHis 
aplicando uma rede neural convolucional (CNN) 
para classificar imagens histopatológicas em 
tumores benignos ou malignos (câncer). Evitando 
a necessidade de executar uma segmentação 
explícita das imagens, este método é baseado na 
extração de várias pequenas subimagens (patches) 
aleatórias para treinamento e na combinação 
dessas subimagens para reconhecimento. Visando 
aumentar o desempenho do modelo classificador 
foi proposta uma abordagem consistindo em 


SELECIONADAS 


previamente selecionar subimagens que sejam 
mais representativas de cada classe, permitindo 
assim discriminar melhor entre padrões malignos 
e benignos. Os resultados alcançados pela 
abordagem de filtragem pré-treinamento da 
CNN mostraram um ganho na acurácia para os 
dois maiores fatores de aumento disponíveis no 
conjunto de imagens, 200x e 400x. 
PALAVRAS-CHAVE: Câncer de mama. Imagem 
histopatológica. Reconhecimento de padrões. 
Rede neural convolucional. 


BREAST CANCER HISTOPATHOLOGICAL 
IMAGE CLASSIFICATION USING 
SELECTED SMALL PATCHES 


ABSTRACT: In this work, it was conducted 
experiments on the BreakKHis dataset using a 
convolutional neural network (CNN) to classify 
histopathological images into benign tumors or 
malign tumors (cancer). Avoiding the necessity of 
performing an explicit segmentation of the images, 
this method is based on the extraction of several 
small random subimages (patches) for training, 
and the combination of these subimages for 
recognition. In order to increase the performance 
of the classifier model, an approach was proposed 
consisting of previously selecting sub-images that 
are more representative of each class, thus letting 
better discrimination between malignant and 
benign patterns. The results achieved by CNN's 
pre-training filtering approach showed a gain in 
accuracy for the two highest magnification factors 
available in the set of images, 200x and 400x. 
KEYWORDS: Breast cancer. Histopathologic 
image. Pattern recognition. Convolutional neural 
network. 


Capítulo 5 


11 INTRODUÇÃO 


Apesar dos notáveis avanços em seu diagnóstico e tratamento, o câncer continua 
constituindo um massivo problema de saúde pública em todo mundo. Fatores como o 
envelhecimento populacional e a adoção de hábitos não saudáveis — antes restritos aos 
países industrializados — estão contribuindo para o avanço da incidência dessa doença. 
Somente na última década, houve um crescimento de 20% nos casos de câncer no mundo, 
segundo o World Cancer Research Fund (WCRF, 2020) e até 2030 projeta-se 27 milhões 
de novos casos de câncer (Boyle; Levin, 2008). Considerados todos os tipos, o câncer 
é a segunda causa mais comum de mortes em países desenvolvidos e recentemente 
está tomando o lugar das doenças cardíacas como a principal causa de morte nos 
países ocidentais (KUMAR et al., 2013). Dados da International Agency for Research on 
Cancer (IARC), da Organização Mundial de Saúde (OMS), confirmam um número global 
de 9,5 milhões de mortes por câncer em 2018 (BRAY et al., 2018). Além disso, a OMS 
também projeta 16 milhões de mortes por câncer de 2018 até 2040, sendo os países em 
desenvolvimento os mais atingidos (BRAY et al., 2018). 


No Brasil, o câncer também é um problema de saúde extremamente preocupante. 
Estimativas do Ministério da Saúde (MS) e do Instituto Nacional do Câncer José Alencar 
Gomes da Silva (INCA) apontam que 625 mil novos casos de câncer diagnosticados para o 
triênio 2020-2022 (INCA, 2020). Destes, a maior incidência está nos cânceres de pele (177 
mil casos), de próstata (66 mil), de mama (66 mil), cólon e reto (41 mil), pulmão (30 mil) e 
estômago (21 mil) (INCA, 2020). Dentre todos os tipos de câncer, excluindo o câncer de 
pele, o câncer de mama é o segundo mais comum entre as mulheres (BRAY et al., 2018). 
Embora o câncer de mama ainda seja mais prevalente nas regiões mais desenvolvidas, a 
mortalidade é relativamente maior nos países menos desenvolvidos devido a dificuldade 
de diagnóstico precoce e restrições enfrentadas pelas mulheres no acesso aos avanços 
clínicos de combate à doença. 


A detecção e o diagnóstico do câncer de mama podem ser feitos através de métodos 
não invasivos e biópsia. Métodos não invasivos são basicamente procedimentos de 
imagem: mamografia (raios-x), imagem por ressonância magnética (MRI) das mamas, ultra- 
som (sonografia) e termografia. Apesar do uso de técnicas de imagem para diagnóstico do 
câncer estar difundido, a biópsia é único meio de informar, com segurança, se o câncer 
está realmente presente. Dentre as técnicas de biópsia, destacam-se procedimentos 
como aspiração por agulha fina (FNA), biópsia de agulha grossa (CNB), biópsia mamária 
assistida à vácuo (VABB) e biópsia cirúrgica (SOB) (KUMAR et al., 2013). Os procedimentos 
de biópsia coletam amostras de células ou tecido. Tais amostras devem ser fixadas em 
uma lâmina para microscopia para a subsequente coloração e análise microscópica das 
chamadas imagens histopatológicas. Os médicos patologistas usam os benefícios de uma 
ampla variedade de corantes para obter informações úteis sobre as lesões e a composição 
dos tecidos. Na Figura 1 é mostrada a imagem de um tumor mamário maligno (câncer) 
visto sob o microscópio. Nota-se as estruturas celulares evidenciadas pela hematoxilina e 
eosina (HE), uma combinação de corantes usada “rotineiramente” em amostras de tecido 
para revelar as estruturas subjacentes e sua condição (HERRINGTON, 2014). Em resumo, 
o diagnóstico a partir de imagens histopatológicas permanece sendo o “padrão-ouro” para 


diagnosticar a maioria dos tipos de câncer, incluindo o câncer de mama (RUBIN et al., 
2012). 





Figura 1: Detalhe de uma seção de carcinoma ductal corada com HE (aumento de 100x). 
Fonte: SPANHOL (2018). 


Apesar da relevância, a análise patológica ainda é bastante manual e subjetiva, 
dependente do especialista humano. Dado o crescente volume de casos a serem 
avaliados, principalmente de câncer, almeja-se que sistemas automatizados possam 
auxiliar o patologista na tarefa de classificação dessas doenças em menor tempo e com 
maior acurácia no diagnóstico. Neste contexto, considerando o impacto do câncer na 
saúde pública, especialmente o câncer de mama pela incidência e letalidade na população 
feminina, somado a urgência de prover ferramentas de suporte ao patologista, propomos 
um modelo de classificador que possa identificar o câncer de mama através da análise 
de imagens digitalizadas de lâminas histopatológicas apoiando a decisão do profissional 
médico. 


21 MATERIAIS E MÉTODOS 


Infelizmente, há uma falta de bancos de imagens histopatológicas, públicos e 
abrangentes, destinados a pesquisa em sistemas de diagnóstico assistido por computador 
CAD/CADx. A revisão de (VETA et al., 2014) destacou que o maior obstáculo no 
desenvolvimento de novos métodos de análise de imagens histopatológicas é a falta de 
grandes bases de dados públicas rotuladas por especialistas. Bases rotuladas também são 
essenciais para desenvolver e validar sistemas de aprendizado de máquina. 


2.1 Base de Imagens BreaKHis 


Para ajudar a mitigar a escassez de bases de dados públicas de imagens 
histopatológicas destinadas à pesquisa, em (SPANHOL et al., 2016) foi disponibilizada uma 
nova base de imagens chamada BreakKHis, a qual é composta de imagens microscópicas 
de lâminas de tumores mamários. As imagens do conjunto estão divididas em tumores 


malignos e benignos, coletadas usando quatro diferentes fatores de aumento: 40X, 100X, 
200X e 400X. Uma imagem representativa de cada fator de aumento pode ser vista na 
Figura 2. São mostradas áreas distintas, pertencentes a uma mesma lâmina de um tumor 
mamário maligno (corado com HE), capturadas em diferentes fatores de aumento: (a) 40X, 
(b) 100X, (c) 200X e (d) 400X. 


Tal base de dados foi construída em colaboração com o laboratório P&D! — Anatomia 
Patológica e Citopatologia, Cascavel, Paraná, Brasil. A base BreakKHis é licenciada sob 
licença Creative Commons 4.0 e está disponível no repositório do Laboratório de Visão 
Robótica e Imagem (VRI)? da Universidade Federal do Paraná (UFPR), através de 
requisição, para propósito de pesquisa. Atualmente conta com mais de 1200 usuários 
registrados pelo mundo e mais de 400 citações em publicações acadêmicas indexadas. A 
base BreakKHis foi utilizada nos experimentos reportados neste trabalho. 





Figura 2: Exemplos de imagens da base BreakKHis: (a ) 40x; (b) 100x; (Cc) 200x; (d ) 400x. 
Fonte: SPANHOL (2018). 


2.2 Abordagem de Aprendizado Profundo 

Normalmente, na rotina clínica, somente pequenas regiões de interesse em uma 
imagem histopatológica são efetivamente utilizadas pelos patologistas para classificar 
uma imagem como tumor maligno (câncer) ou tumor benigno (não-canceroso). Porém, 
considerando as imagens da base BreakKHis, tais regiões não estão segmentadas ou 


1. https:/Aww.prevencaoediagnose.com.br/ 
2. https:/Aweb.inf.ufpr.brivri/databases/breast-cancer-histopathological-database-breakhis/ 
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rotuladas, isto é, a exata localização da região de interesse útil para o diagnóstico não é 
previamente conhecida. Visando evitar a segmentação explícita uma primeira abordagem 
baseada em aprendizado profundo (deep learning) para a base BreakKHis foi originalmente 
publicada em (SPANHOL et al., 2016b). Em tal trabalho os autores apresentaram os 
resultados alcançados usando uma CNN (Convolutional Neural Network) treinada 
diretamente com as imagens histopatotógicas da BreakKHis, considerando os 4 aumentos 
e 5 distribuições diferentes de pacientes (partições) nos conjuntos de treinamento e teste. 


2.3 Classificação usando Subimagens (Patches) 


Dado que CNNs exigem grandes conjunto de dados para treinamento, os autores 
utilizaram a técnica de extrair pequenas subimagens (patches) das imagens originais, 
tanto nas fases de treinamento quanto de teste (SPANHOL et al., 2016b). A ideia é 
aumentar o conjunto de instâncias disponíveis para treinamento extraindo de cada imagem 
original do conjunto de treinamento um grande número de patches selecionados de 
posições randômicas. Foram extraídos 1000 patches de 64'64 pixels cada. Na fase de 
testes os patches extraídos das imagens originais do conjunto de teste são classificados 
individualmente e então o resultado é combinado para classificar a imagem original como 
sendo tumor maligno (câncer) ou benigno. 


Entretanto, os padrões de alguns patches é muito similar, independente se a imagem 
original provém de um tumor maligno ou benigno. Exemplos de tais padrões podem ser 
vistos na Figura 3: em (a) patches de áreas de fundo e (b) patches de tecido adiposo. 
Essa intersecção pode ser parcialmente explicada pela presença natural de certos tipos de 
tecido (como tecido adiposo, tecido rico em colágeno, tecido conectivo, etc.) em muitas das 
amostras histopatológicas de mama. 


Além disso, um significante número de patches extraídos apresenta texturas quase 
planas, normalmente correspondendo a áreas de formação de líquido, à cavidade central 
de estruturas tubulares ou mesmo a espaços no tecido (fundo). Um exemplo desse tipo de 
patch pode ser visto na Figura 4. Definitivamente os patches contendo apenas tal tipo de 
padrão plano não são representativos para distinguir entre tumores malignos e benignos. 
Assim, a proposta é descartar os paíches que apresentem padrões comuns a ambas as 
classes. Para tanto, foi aplicada uma técnica de agrupamento (clustering) em tais patches 
visando separá-los em três grupos: puramente maligno, puramente benigno e misto. Logo, 
apenas os grupos puros são considerados como entrada de treinamento para a CNN. 
Espera-se que usando patches mais discriminativos melhore-se a taxa de reconhecimento 
do modelo de classificação. 


2.4 Extração de Características DeCAF 


Na extração de características, usando os patches já obtidos, é aplicada uma CNN 
pré-treinada para obter características DeCAF (Deep Convolutional Activation Feature) a 
partir da camada ipf dessa CNN. Essa camada é uma camada InnerProduct (também 
conhecida como camada totalmente conectada) que trata a imagem de entrada como 
um vetor e gera como saída também um vetor. Neste modelo tem-se um vetor v, de 64 
dimensões que é salvo em V. 
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Figura 3: Exemplos de padrões recorrentes: ( a ) área de fundo; ( b ) tecido adiposo. 
Fonte: SPANHOL (2018). 








Figura 4: Retângulo mostrando uma subimagem (patch) selecionada de uma área de imagem 
que apresenta textura completamente plana. 


Fonte: SPANHOL (2018). 


2.5 Agrupamento de Patches 


Uma vez extraída a representação a partir da camada ip1, aplicou-se um algoritmo 
de agrupamento k-means para criar k = 50 agrupamentos no conjunto de dados de entrada. 
Foram avaliados variações do número de agrupamentos ktal que k e (10, 20, 50). Analisando 
a distribuição dos patches nos respectivos clusters foi escolhido o valor de k = 50 para manter 
os agrupamentos menos densos. Foi executado um agrupamento particionado, isto é, a 
divisão do conjunto de instâncias de entrada (vetores de características) em subconjuntos 
não sobrepostos (agrupamentos). Espera-se dividir os patches em grupos distintos, 
baseando-se nas propriedades de coerência e similaridade aprendidos automaticamente 
pela CNN utilizada como extratora de características DeCAF. 


2.6 Filtragem 


Este passo objetiva avaliar cada cluster (agrupamento) e descartar aqueles que 
eventualmente possuam padrões mistos. Assim, usando os vetores em V, cria-se os 
clusters C e avalia-se a taxa de pureza pº para cada cluster, descartando os clusters que 
apresentem pureza inferior a um limiar fixado. A taxa de pureza pº é computada pela Eq. 
(1). Aqui o termo pureza representa a qualidade de um cluster possuir majoritariamente 
patches provindos apenas de uma determinada classe, isto é, minimize a ocorrência de 
padrões que sejam recorrentes em ambas as classes. 


(1) 


C, |Lil |Lm| 
Dp4 =max| ——,...,— 
f | Np Np 





tal que, Yb, Ly e C 


Tem-se na equação (1) que 1 <q=sk eL, e C, representa os patches de L, no 
cluster C, Dado um limiar À, é descartado o cluster C, se pY <A, Finalmente, para cada 
cluster remanescente, é atribuído o rótulo do cluster aos respectivos patches. Tais patches, 
presumidamente contendo padrões mais representativos, são usados como entrada para 
treinar a CNN. Foram avaliados diferentes valores da taxa de pureza considerando valores 
distintos para o limiar A. Notou-se que assumindo taxas muito altas (À > 0,99) causava-se 
a eliminação completa dos patches de certos conjuntos. Assim, foi fixado um limiar À = 0,9 
que produziu resultados de classificação satisfatórios. 


2.7 Treinamento da CNN 


Finalizada a filtragem, os patches menos discriminativos foram descartados e 
um conjunto de instâncias menor é obtido para treinar a CNN. Esse modelo foi treinado 
usando os patches filtrados como entrada. O protocolo de treinamento é o supervisionado 
e aplicou-se o método SGD (Stochastic Gradient Descent) para computar os gradientes. 
Mini-lotes de tamanho 1 foram usados para atualizar os parâmetros da CNN, treinada por 
80.000 iterações, iniciando com uma taxa de aprendizado de 10 em conjunção com um 
termo momentum de 0,9 e um decaimento de peso 45. 


2.8 Métricas de Avaliação 


Para permitir uma comparação direta dos resultados deste trabalho principalmente 
foi avaliada a acurácia em cada fator de aumento (zoom) de forma independente, tanto 
na métrica nível de imagem quanto em nível de paciente. A acurácia em nível de imagem 
corresponde ao escore do total de imagens corretamente classificadas. Isto é mostrado na 
Eq. (2), onde N é o número total de imagens no conjunto de dados e N é o total de imagens 
corretamente classificadas: 


N. 
AcCim = E (2) 


Já a acurácia em nível de paciente corresponde a média da acurácia em nível de 
imagem por paciente. Mais formalmente, fazendo S o número total de pacientes, N o 


total de imagens classificadas corretamente do paciente 4 e N, o total de imagens para o 
mesmo paciente tem-se a Eq. (3). 


p=1 No 3 
ÁcCpac = (8) 


31 RESULTADOS E DISCUSSÃO 


Desde a disponibilização pública da base BreaKHis alguns métodos de classificação 
que utilizam tal conjunto de imagens foram propostos na literatura. Logo, considerando a 
base BreakKHis um benchmark e os resultados alcançados com descritores convencionais 
publicados em (SPANHOL et al., 2016) uma linha base (A), podemos comparar o método 
de CNN sem filtragem (B e B*) (SPANHOL et al., 2016b) com o método de filtragem de 
patches significativos aqui apresentado (C). A arquitetura da CNN é a mesma. 


O Quadro 1 compara a acurácia do método de descarte de patches proposto neste 
trabalho com as outras abordagens usando as mesmas 5 partições de treinamento-teste da 
linha base. A acurácia percentual é a média das 5 partições. Os melhores resultados estão 
em negrito com fundo cinza. A abordagem B* indica uma combinação de classificadores. 


Nota-se que o método de filtragem não conseguiu um desempenho superior em 
todos os fatores de aumento, mas sim nos dois maiores (200x e 400x) quando comparado 
com CNN que utiliza os patches sem filtragem. Por outro lado, o método proposto tem um 
desempenho melhor em todos os fatores de aumento quando comparado a linha base. 





Fator de aumento 











Abordagem 
Moe 100x 200x 400x 
A 83,8 44,1 82,149 85,1+3,/1 82,338 
E 88,6 15,6 845 42,4 85,3 +3,8 81,7 +49 
8 90,0 + 6,7 88,4 +4,8 846 +42 86,1 +6,2 
E 86,4 25,7 83,6 +5,8 92,1+7,3 85,0 4,7 
A 82,8+3,6 80,7 4,9 84,2 41,6 81,2 +36 
SB 89,6 16,5 85,0 +4,8 84,0 43,2 80,8 *3,1 
É p 85,614,8 83,5 +39 83,1 41,9 80,8 +3,0 
[o 85,3+3,3 82,5 +3,0 87,8 +4,9 82,134 





Quadro 1: Acurácia (%) comparada com trabalhos disponíveis na literatura. 


Fonte: Autoria própria (2020). 


Predições falso positivas, isto é, instâncias de tumor benigno classicias 
incorretamente como tumor maligno continuam sendo a maior fonte de erros do modelo. 


41 CONSIDERAÇÕES FINAIS 


A técnica de descartar patches não discriminativos mostrou-se promissora, com 
resultados que melhoram o desempenho da CNN na tarefa de classificação de imagens da 
base BreaKHis em tumores malignos ou benignos. Contudo, novos experimentos precisam 
ser realizados para melhorar o desempenho nos aumentos menores (40X e 100X). 


Adicionalmente, além de melhorar a acurácia geral do modelo utilizado para a tomada 
de decisão clínica pesquisas devem também focar na extração das características da 
imagem que realmente são significativas para classificação de câncer, permitindo rastrear 
quais parâmetros levaram o modelo a determinada classificação final. Tais características 
podem fornecer insights inovadores acerca de determinadas áreas especificas que devem 
ser examinadas pelos especialistas médicos. 
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